光学字符识别

编辑
本词条由“匿名用户” 建档。

光学字符识别或光学字符读取器(OCR)是将打字,手写或印刷的文本的图像电子或机械转换为机器编码的文本,无论是来自扫描的文档,文档的照片还是场景照片(例如,风景照片的标志和广告牌上的文字)或叠加在图像上的字幕文字(例如电视广播)。 广泛用作从打印纸质数据记录中输入数据的一种形式–是护照文件、发票、银行对帐单、计算机收据、名片、邮件、静态数据的打印输出,还是任何合适的文档–这是一种数字化打印件的常用方...

光学字符识别

编辑

光学字符识别或光学字符读取器(OCR)是将打字,手写或印刷的文本的图像电子机械转换为机器编码的文本,无论是来自扫描的文档,文档的照片还是场景照片(例如,风景照片的标志广告牌上的文字)或叠加在图像上的字幕文字(例如电视广播)。

广泛用作从打印纸质数据记录中输入数据的一种形式–是护照文件、发票、银行对帐单、计算机收据名片邮件、静态数据的打印输出,还是任何合适的文档–这是一种数字化打印件的常用方法文本,以便可以对其进行电子编辑、搜索、更紧凑地存储,在线显示以及在机器过程中使用,例如认知计算机器翻译、(提取的)文本到语音、关键数据和文本挖掘。OCR是模式识别人工智能计算机视觉领域的研究领域。

光学字符识别

早期版本需要使用每个字符的图像进行训练,并且一次只能使用一种字体。如今,能够为大多数字体提供高度识别精度的高级系统已普遍使用,并且支持各种数字图像文件格式输入。一些系统能够再现与原始页面非常接近的格式化输出,包括图像,列和其他非文本组件。

类型

编辑
  • 光学字符识别(OCR)–一次针对打字的文本,一个字形或一个字符。
  • 光学单词识别–以打字文本为目标,一次只能输入一个单词(对于使用空格作为单词分隔符的语言)。(通常称为“ OCR”。)
  • 智能字符识别(ICR)–一次也针对一个字形或字符的手写印刷稿或草书文本,通常涉及机器学习
  • 智能单词识别(IWR)–还针对手写印刷稿或草书文本,一次只包含一个单词。这对于在草书中未分隔字形的语言特别有用。

OCR通常是一个“脱机”过程,用于分析静态文档。有基于云的服务,可提供在线OCR API服务。笔迹运动分析可以用作笔迹识别的输入。该技术不仅可以使用字形和单词的形状,还可以捕获运动,例如绘制段的顺序,方向以及放下和抬起笔的方式。这些附加信息可以使端到端过程更加准确。该技术也被称为“在线字符识别”、“动态字符识别”、“实时字符识别”和“智能字符识别”。

技术

编辑

预处理

OCR软件通常会对图像进行“预处理”,以提高成功识别的机会。技术包括:

  • 去歪斜  -如果扫描文档时没有正确对齐,则可能需要以顺时针或逆时针方向倾斜几度使文字完全水平或垂直的线。
  • 去斑  –去除正负点,平滑边缘
  • 二值化–将图像从彩色或灰度转换为黑白(由于有两种颜色,因此称为“ 二进制图像 ”)。二值化任务是将文本(或任何其他所需的图像成分)与背景分离的简单方法。二值化任务本身是必要的,因为大多数商业识别算法仅对二进制图像起作用,因为事实证明这样做更简单。另外,二值化步骤的有效性在很大程度上影响字符识别阶段的质量,并且在选择给定输入图像类型的二值化时要做出谨慎的决定。因为用于获得二进制结果的二值化方法的质量取决于输入图像的类型(扫描文档、场景文本图像、历史退化文档等)。
  • 去除线–清理非字形框和线
  • 布局分析或“分区” –将列、段落、标题等标识为不同的块。在多列布局和表格中尤其重要。
  • 线和单词检测–建立单词和字符形状的基准,必要时将单词分开。
  • 脚本识别–在多语言文档中,脚本可能会在单词级别发生变化,因此,在调用正确的OCR来处理特定脚本之前,必须对脚本进行识别。
  • 字符隔离或“分段” –对于每个字符的OCR,由于图像伪影而连接的多个字符必须分开;必须将由于伪影而分成多个部分的单个字符连接起来。
  • 标准化宽高比和比例

通过基于垂直网格线最不经常与黑色区域相交的位置将图像对齐到均匀网格,可以相对简单地完成固定间距字体的分割。对于比例字体,需要使用更复杂的技术,因为字母之间的空白有时可能大于单词之间的空白,并且竖线可以相交多个字符。

文字识别

核心OCR算法有两种基本类型,它们可以产生候选字符的排序列表。

矩阵匹配包括将图像与存储的字形逐像素进行比较;它也被称为“图案匹配”、“ 图案识别 ”或“ 图像相关性 ”。这取决于将输入字形与图像的其余部分正确隔离,并且取决于存储的字形具有相似的字体和相同的比例。此技术最适合打字文本,当遇到新字体时效果不佳。这是早期基于物理光电管的OCR实施的技术,而不是直接实施的技术。

特征提取将字形分解为“特征”,例如直线、闭环、直线方向和直线相交。提取功能降低了表示的维数,并使识别过程在计算上高效。将这些特征与字符的抽象矢量状表示形式进行比较,这可能会简化为一个或多个字形原型。计算机视觉中特征检测的一般技术适用于这种类型的OCR,这在“智能” 手写识别以及实际上大多数现代OCR软件中很常见。最近邻分类器,例如k最近邻算法用于比较图像特征与存储的字形特征并选择最接近的匹配。

诸如Cuneiform和Tesseract之类的软件使用两遍方法进行字符识别。第二遍称为“自适应识别”,它使用在xxx遍上以高可信度识别的字母形状来更好地识别第二遍上的其余字母。这对于字体变形(例如模糊或褪色)的异常字体或低质量扫描很有用。

诸如OCRopus或Tesseract之类的现代OCR软件使用经过训练的神经网络来识别整个文本行,而不是专注于单个字符。

OCR结果可以以标准化的ALTO格式存储,这是美国国会图书馆维护的专用XML模式。其他常见格式包括hOCR和PAGE XML。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/107589/

(2)
词条目录
  1. 光学字符识别
  2. 类型
  3. 技术
  4. 预处理
  5. 文字识别

轻触这里

关闭目录

目录