场景文本

编辑
本词条由“匿名用户” 建档。

场景文本是出现在户外环境中由相机拍摄的图像中的文本。从相机拍摄的图像中检测和识别场景文本是计算机视觉任务,在带有良好摄像头的智能手机变得无处不在之后,这项任务变得非常重要。 场景图像中的文字在形状、字体、颜色和位置上都有所不同。 场景文本的识别有时会因为不均匀的光照和聚焦而变得更加复杂。 为了提高场景文本识别,国际文档分析和识别会议(ICDAR)每两年举行一次强大的阅读竞赛。 该竞赛在2003年、...

简介

编辑

场景文本是出现在户外环境中由相机拍摄的图像中的文本。从相机拍摄的图像中检测和识别场景文本是计算机视觉任务,在带有良好摄像头智能手机变得无处不在之后,这项任务变得非常重要。

场景图像中的文字在形状、字体、颜色位置上都有所不同。

场景文本的识别有时会因为不均匀的光照和聚焦而变得更加复杂

为了提高场景文本识别,国际文档分析和识别会议(ICDAR)每两年举行一次强大的阅读竞赛。

该竞赛在2003年、2005年和每届ICDAR会议期间举行。国际模式识别协会(IAPR)已经创建了一个数据集清单作为阅读系统

文本检测

编辑

文本检测是检测图像中存在的文本的过程,然后用一个矩形边界框将其包围。文本检测可以使用基于图像的技术或基于频率的技术来进行。在基于图像的技术中,一个图像被分割成多个片段。

每个区段都是具有相似特征的像素的连接组件。利用连接组件的统计特征对它们进行分组并形成文本。机器学习方法,如支持向量机和卷积神经网络,被用来将组件分类为文本和非文本。

在基于频率的技术中,离散傅里叶变换(DFT)或离散小波变换(DWT)被用来提取高频系数。假设图像中的文本具有高频成分,只选择高频系数就可以将文本从图像的非文本区域中过滤出来。

计算机视觉领域

字词识别

编辑

在字词识别中,假定文本已经被检测和定位,并且包含文本的矩形边界框是可用的。边界框内的字需要被识别。可用来进行单词识别的方法大致可分为自上而下和自下而上的方法。

在自上而下的方法中,一组来自字典的单词被用来识别适合给定图像的单词。在大多数这些方法中,图像都没有被分割。

因此,自上而下的方法有时被称为无分割识别。在自下而上的方法中,图像被分割成多个部分,分割后的图像被传递给识别引擎。

无论是现成的光学字符识别(OCR)引擎还是自定义训练的引擎,都被用来识别文本。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/174625/

(3)
词条目录
  1. 简介
  2. 文本检测
  3. 字词识别

轻触这里

关闭目录

目录