简介
编辑场景文本是出现在户外环境中由相机拍摄的图像中的文本。从相机拍摄的图像中检测和识别场景文本是计算机视觉任务,在带有良好摄像头的智能手机变得无处不在之后,这项任务变得非常重要。
场景文本的识别有时会因为不均匀的光照和聚焦而变得更加复杂。
为了提高场景文本识别,国际文档分析和识别会议(ICDAR)每两年举行一次强大的阅读竞赛。
该竞赛在2003年、2005年和每届ICDAR会议期间举行。国际模式识别协会(IAPR)已经创建了一个数据集清单作为阅读系统。
文本检测
编辑文本检测是检测图像中存在的文本的过程,然后用一个矩形边界框将其包围。文本检测可以使用基于图像的技术或基于频率的技术来进行。在基于图像的技术中,一个图像被分割成多个片段。
每个区段都是具有相似特征的像素的连接组件。利用连接组件的统计特征对它们进行分组并形成文本。机器学习方法,如支持向量机和卷积神经网络,被用来将组件分类为文本和非文本。
在基于频率的技术中,离散傅里叶变换(DFT)或离散小波变换(DWT)被用来提取高频系数。假设图像中的文本具有高频成分,只选择高频系数就可以将文本从图像的非文本区域中过滤出来。
字词识别
编辑在字词识别中,假定文本已经被检测和定位,并且包含文本的矩形边界框是可用的。边界框内的字需要被识别。可用来进行单词识别的方法大致可分为自上而下和自下而上的方法。
在自上而下的方法中,一组来自字典的单词被用来识别适合给定图像的单词。在大多数这些方法中,图像都没有被分割。
因此,自上而下的方法有时被称为无分割识别。在自下而上的方法中,图像被分割成多个部分,分割后的图像被传递给识别引擎。
无论是现成的光学字符识别(OCR)引擎还是自定义训练的引擎,都被用来识别文本。
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/174625/