释义(计算语言学)

编辑
本词条由“匿名用户” 建档。
释义或计算语言学中的释义是指检测和生成释义的自然语言处理任务。释义的应用多种多样,包括信息检索、问题回答、文本总结和剽窃检测。释义在评估机器翻译以及语义解析和生成新样本以扩大现有语料库方面也很有用。 多序列对齐Barzilay和Lee提出了一种通过使用单语平行语料库生成释义的方法,即在同一天报道同一事件的新闻文章。训练包括使用多序列对齐,从未注释的语料库中生成句子级的转述。具体做法是在每...

释义(计算语言学)

编辑

释义或计算语言学中的释义是指检测和生成释义的自然语言处理任务。释义的应用多种多样,包括信息检索、问题回答、文本总结和剽窃检测。释义在评估机器翻译以及语义解析和生成新样本以扩大现有语料库方面也很有用。

释义生成

编辑

多序列对齐Barzilay和Lee提出了一种通过使用单语平行语料库生成释义的方法,即在同一天报道同一事件的新闻文章。训练包括使用多序列对齐,从未注释的语料库中生成句子级的转述。具体做法是在每个单独的语料库中找到重复出现的模式,即X(受伤/受伤)Y人,Z严重,其中X、Y、Z是变量,在这些模式之间找到代表转述的配对,即X(受伤/受伤)Y人,Z严重和Y被X(受伤/受伤),其中Z处于严重状态,这是通过首先使用n-gram重叠将类似的句子聚类来实现。通过使用多序列对齐,在聚类中找到重复的模式。然后,通过在每个聚类中找到高变异性的区域来确定论据词的位置,也就是在一个聚类中50%以上的句子所共享的词之间。然后,通过比较不同语料库之间的类似变量词,找到模式之间的配对。最后,通过为源句选择一个匹配的群组,然后将源句的论据替换成群组中的任何数量的模式,就可以生成新的释义。

基于短语的机器翻译

编辑

释义也可以通过使用Bannard和Callison-Burch所提出的基于短语的翻译来生成。其主要概念包括对准枢轴语言中的短语,以产生原始语言中的潜在意译。例如,英语句子中的"undercontrol"与德语中的"unterkontrolle"是一致的。然后,在另一个德语句子中发现unterkontrolle这个短语,与之对齐的英语短语是incheck,是undercontrol的意译。这个概率分布可以被建模为{displaystyle`Pr(f|e_{1})}可以通过简单提取它们的频率来近似。可以通过简单提取它们的频率来近似。加入{displaystyleS}作为一个先验的模型,通过计算形成的概率作为先验,通过计算形成的概率来模拟

自然语言处理

长短时记忆

编辑

在使用长短时记忆(LSTM)模型来生成意译方面已经取得了成功。简而言之,该模型由一个编码器和解码器部分组成,两者都使用堆叠的残差LSTM的变体来实现。首先,编码LSTM将一个句子中所有单词的单次编码作为输入,并产生一个最终的隐藏向量,它可以代表输入句子。解码LSTM将隐藏向量作为输入,并生成一个新的句子,以句末符号为终点。编码器和解码器经过训练,通过使用简单的随机梯度下降法使困惑度最小化,以获取一个短语并重现相应的意译的单热分布。通过向编码器输入一个新的短语并将输出传给解码器来生成新的释义。

变换器

编辑

随着变换器模型的引入,通过缩放神经网络参数和通过前馈层大量并行化训练,转述生成方法提高了其生成文本的能力。这些模型在生成文本方面非常流畅,以至于人类专家无法识别一个例子是人类撰写的还是机器生成的。基于转化器的仿写生成依赖于自动编码、自回归或序列到序列的方法。自动编码器模型通过以下方式预测单词替换候选者

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175870/

(1)
词条目录
  1. 释义(计算语言学)
  2. 释义生成
  3. 基于短语的机器翻译
  4. 长短时记忆
  5. 变换器

轻触这里

关闭目录

目录