知识图谱嵌入
编辑在表示学习中,知识图谱嵌入(KGE),也被称为知识表示学习(KRL),或多关系学习,是一项机器学习任务,学习知识图谱实体和关系的低维表示,同时保留其语义。利用其嵌入式表示,知识图谱(KGs)可用于各种应用,如链接预测、三重分类、实体识别、聚类和关系提取。
知识图谱嵌入的定义
编辑一个知识图谱{displaystyle{mathcal{G}}={E,R,F}}是一个实体的集合。的三联体。文献中经常用来表示三联体(或事实)的另一个符号是<head,relation,tail>。{displaystyle<head,relation,tail>}。.这种符号被称为资源描述框架(RDF)。知识图谱代表了与特定领域相关的知识;利用这种结构化的表示方法,经过一些细化步骤,就可以从中推断出一段新的知识。然而,如今人们不得不面对数据的稀少和在现实世界中使用这些数据的计算效率低下的问题。知识图谱的嵌入将知识图谱中的每个实体和关系都翻译出来。{displaystyle{mathcal{G}}的每个实体和关系转化为给定维度的向量。}嵌入到一个特定维度的向量中,称为嵌入维度。在一般情况下,我们可以对实体有不同的嵌入维度.知识图谱中所有实体和关系的嵌入向量的集合是一个更密集和有效的领域表示,可以更容易地用于许多不同的任务。一个知识图谱的嵌入有四个不同方面的特征。表征空间。表示实体和关系的低维空间。打分函数。衡量三重嵌入表征的好坏。编码模型。实体和关系的嵌入表示相互作用的模式。附加信息。任何来自知识图谱的、可以丰富嵌入表示的额外信息。通常,一个特别的评分函数被整合到每个附加信息的一般评分函数中。嵌入程序所有不同的知识图谱嵌入模型都遵循大致相同的程序来学习事实的语义。
首先,为了学习一个知识图谱的嵌入表示,实体和关系的嵌入向量被初始化为随机值。然后,从一个训练集开始,直到达到一个停止条件,该算法不断优化嵌入。通常情况下,停止条件是由训练集上的过拟合给出的。在每次迭代中,都会抽出一批大小为{displaystyleb}的批次,并对每一个训练集的批次,并为该批次的每个三元组随机抽取一个被破坏的事实,即一个不代表知识图谱中真实事实的三元组。三元组的损坏包括用另一个实体取代三元组的头部或尾部(或两者),从而使该事实成为错误。在训练批次中加入原始三联体和被破坏的三联体,然后更新嵌入,优化一个评分函数。在算法结束时,学习到的嵌入应该已经从三联体中提取了语义,并且应该正确地在知识图谱中未见过的真实事实。
伪代码
编辑知识图谱嵌入的算法
编辑计算实体和关系嵌入是输入。训练集{displaystyle(h',r,t')leftarrowsample(S')}//对一个被破坏的事实进行采样。//采样一个被破坏的事实或三联体{displaystyleT_{batch}leftarrow
内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/175721/