简介

场景文本是出现在户外环境中由相机拍摄的图像中的文本。从相机拍摄的图像中检测和识别场景文本是计算机视觉任务，在带有良好摄像头的智能手机变得无处不在之后，这项任务变得非常重要。

场景图像中的文字在形状、字体、颜色和位置上都有所不同。

场景文本的识别有时会因为不均匀的光照和聚焦而变得更加复杂。

为了提高场景文本识别，国际文档分析和识别会议（ICDAR）每两年举行一次强大的阅读竞赛。

该竞赛在2003年、2005年和每届ICDAR会议期间举行。国际模式识别协会（IAPR）已经创建了一个数据集清单作为阅读系统。

文本检测

文本检测是检测图像中存在的文本的过程，然后用一个矩形边界框将其包围。文本检测可以使用基于图像的技术或基于频率的技术来进行。在基于图像的技术中，一个图像被分割成多个片段。

每个区段都是具有相似特征的像素的连接组件。利用连接组件的统计特征对它们进行分组并形成文本。机器学习方法，如支持向量机和卷积神经网络，被用来将组件分类为文本和非文本。

在基于频率的技术中，离散傅里叶变换（DFT）或离散小波变换（DWT）被用来提取高频系数。假设图像中的文本具有高频成分，只选择高频系数就可以将文本从图像的非文本区域中过滤出来。

场景文本

在字词识别中，假定文本已经被检测和定位，并且包含文本的矩形边界框是可用的。边界框内的字需要被识别。可用来进行单词识别的方法大致可分为自上而下和自下而上的方法。

在自上而下的方法中，一组来自字典的单词被用来识别适合给定图像的单词。在大多数这些方法中，图像都没有被分割。

因此，自上而下的方法有时被称为无分割识别。在自下而上的方法中，图像被分割成多个部分，分割后的图像被传递给识别引擎。

无论是现成的光学字符识别（OCR）引擎还是自定义训练的引擎，都被用来识别文本。

内容由匿名用户提供，本内容不代表vibaike.com立场，内容投诉举报请联系vibaike.com客服。如若转载，请注明出处：https://vibaike.com/174625/