缓存语言模型

编辑
本词条由“匿名用户” 建档。
缓存语言模型是一种统计的语言模型。这些发生在计算机科学的自然语言处理子领域中,并通过概率分布将概率分配给给定的单词序列。统计语言模型是语音识别系统和许多机器翻译系统的关键组件 :它们告诉这样的系统,哪些可能的输出单词序列是可能的,哪些是不可能的。缓存语言模型的特殊特征是它包含一个缓存组件并为出现在给定文本其他位置的单词或单词序列分配较高的概率。缓存语言模型的主要用途(但绝非唯一)是在语音识别系统中...

缓存语言模型

编辑

缓存语言模型是一种统计的语言模型。这些发生在计算机科学的自然语言处理子领域中,并通过概率分布将概率分配给给定的单词序列。统计语言模型是语音识别系统和许多机器翻译系统的关键组件 :它们告诉这样的系统,哪些可能的输出单词序列是可能的,哪些是不可能的。缓存语言模型的特殊特征是它包含一个缓存组件并为出现在给定文本其他位置的单词或单词序列分配较高的概率。缓存语言模型的主要用途(但绝非xxx)是在语音识别系统中。

为了理解为什么统计语言模型包含一个缓存组件是一个好主意,您可能会考虑某人在语音识别系统中指示有关大象的字母。标准(非缓存)N-gram语言模型将为“大象”一词分配极低的概率,因为它是英语中一个非常罕见的词。如果语音识别系统不包含高速缓存组件,则可能会烦扰指示该字母的人:每次说出“大象”一词时,根据N元语法模型,可能会识别出另一个具有较高概率的单词序列(例如,“告诉计划”)。每次说出“大象”时,都必须手动删除这些错误序列,并在文本中将其替换为“大象”。如果系统具有缓存语言模型,则“ elephant”在xxx次说出来时仍可能会被误认,因此必须手动将其输入文本中。但是,从这一点上,系统意识到“象素”很可能会再次发生–估计的“象素”出现的可能性已经增加,使其更有可能被正确识别。一旦“大象”出现了好几次,系统可能会在每次说出字母之前都正确地识别它,直到完全确定了字母。分配给“大象”出现的概率的这种增加是以下结果的一个示例:机器学习,尤其是模式识别

缓存语言模型

存在缓存语言模型的变体,其中不仅向单个单词而且向以前出现的多单词序列分配较高的概率(例如,如果“旧金山”出现在文本开头附近,则将为其分配后续实例更高的概率)。

高速缓存语言模型最初是在1990年发表的一篇论文中提出的,之后,IBM语音识别小组对该概念进行了试验。该小组发现,一旦确定了文档的前几百个单词,实施某种缓存语言模型就会使单词错误率下降24%。对语言建模技术的详细调查得出的结论是,缓存语言模型是为数不多的比标准N-gram方法有所改进的新语言建模技术之一:“我们的缓存结果表明,缓存是迄今为止最有用的技术以减少中小型训练数据量的困惑”。

缓存语言模型的发展引起了与一般计算语言学尤其是统计自然语言处理有关的人们的极大兴趣:最近,人们对在统计机器翻译领域中应用缓存语言模型感兴趣。

高速缓存语言模型在改进单词预测方面的成功取决于人类以“突发”方式使用单词的趋势:当人们在特定上下文中讨论某个主题时,使用某些单词的频率将与在其他情况下讨论其他主题时的频率。传统的N-gram语言模型完全依赖于来自要分配概率的单词之前的极少数(四个、三个或两个)单词的信息,无法充分模拟这种“突发性”。

最近,缓存语言模型概念(最初是为N-gram统计语言模型范例构想的)已经适应于在神经范例中使用。例如,最近在递归神经网络(RNN)设置中对连续缓存语言模型进行的工作已将缓存概念应用于比以前更大的上下文,从而显着减少了困惑。最近的另一项研究涉及将缓存组件合并到前馈神经语言模型(FN-LM)中,以实现快速域自适应。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/111992/

(3)
词条目录
  1. 缓存语言模型

轻触这里

关闭目录

目录