统计机器翻译

统计机器翻译（SMT）是一种机器翻译范例，其中翻译是根据统计模型生成的，统计模型的参数来自对双语文本语料库的分析。统计方法与基于规则的机器翻译方法以及基于示例的机器翻译方法形成对比。

沃伦·韦弗（Warren Weaver）于1949年提出了统计机器翻译的最初思想，包括应用克劳德·香农（Claude Shannon）的信息论的思想。IBM的Thomas J. Watson研究中心的研究人员在1980年代末和1990年代初重新引入了统计机器翻译，并且近年来，机器翻译的兴趣重新兴起。在引入神经机器翻译之前，它是迄今为止研究最广泛的机器翻译方法。

统计机器翻译好处

编辑

与基于规则的方法相比，统计机器翻译最常被引用的好处是：

更有效地利用人力和数据资源
- 有许多机器可读格式的并行语料库，甚至还有更多的单语数据。
- 通常，SMT系统不适合任何特定的语言对。
- 基于规则的翻译系统需要手动开发语言规则，这可能成本很高，而且通常无法推广到其他语言。
由于使用语言模型，翻译更加流畅。

统计机器翻译缺点

编辑

创建语料库的成本可能很高。
特定错误很难预测和修复。
结果可能具有表面的流利性，从而掩盖了翻译问题。
对于词序明显不同的语言对，统计机器翻译通常效果较差。
由于较小的训练语料库和较大的语法差异，西欧语言之间的翻译所获得的好处不能代表其他语言对的结果。

实现统计机器翻译的系统

编辑

GOOGLE翻译（从2016年开始过渡到神经机器翻译）
微软翻译器（2016年开始过渡到神经机器翻译）
Omniscien Technologies
SYSTRAN（从2016年开始过渡到神经机器翻译）
YANDex.Translate（在2017年转换为结合了神经机器翻译的混合方法）

内容由匿名用户提供，本内容不代表vibaike.com立场，内容投诉举报请联系vibaike.com客服。如若转载，请注明出处：https://vibaike.com/111986/