1.一种融合实体描述及类型的知识图谱表示学习方法,其特征在于,包括以下步骤:步骤S1:利用翻译模型获得三元组实体的嵌入,将三元组中的关系当作头实体和尾实体间翻译操作,得到每个三元组实体和关系的数值向量表示;
步骤S2:采用Doc2Vec模型,对实体描述的文本信息进行嵌入;
步骤S3:通过Trans模型得到的实体嵌入,与实体层次类型映射矩阵结合,得到三元组实体类型的嵌入;
步骤S4:将所有的表示向量进行连接,得到最终的三元组实体向量,采用随机梯度下降的方法优化训练模型,进行效果评估。
2.根据权利要求1所述的融合实体描述及类型的知识图谱表示学习方法,其特征在于,步骤S1中三元组实体嵌入包括TransE模型和TransR模型获取三元组嵌入,其中,E、R分别代表知识图谱的实体集合和关系集合,具体的获取方法包括:S11:TransE模型获取三元组嵌入;
S111:随机生成三元组头实体、关系、尾实体的向量表示,分别记为h、r、t;
S112:随机生成负样本数据;对于知识图谱中原本存在的三元组称之为正确三元组(h,r,t),用实体集合E中的实体随机替换正确三元组中的头实体或尾实体,用关系集合R中的关系随机替换正确三元组中的关系,具体为:neg={(h′,r,t)|h′∈E}∪{(h,r′,t)|r′∈R}∪{(h,r,t′)|t′∈E}其中,h′是对应于h的负例样本,r′是对应于r的负例样本,t′是对应于t的负例样本;
S113:优化目标函数L(h,r,t),获得基于TransE模型的三元组实体的嵌入;
其中,γ为超参数,衡量正确三元组和错误三元组的边界;d(h+r,t)=||h+r-t||,d(h+r,t)为h+r和t的距离度量;pos为知识图谱中的正确三元组;
S12:TransR模型获取三元组嵌入
S121:对于每一个关系,通过变换矩阵Mr与头实体和关系实体向量相乘,将头实体向量h和尾实体向量t映射到关系空间,得到关系空间下的实体向量表示,即:hr=hMr,tr=tMr
S122:然后,生成负采样数据;对于知识图谱中原本存在的三元组称之为正确三元组(h,r,t),用实体集合E中的实体随机替换正确三元组中的头实体或尾实体,用关系集合R中的关系随机替换正确三元组中的关系;
S123:最后,优化目标函数L(h,r,t),获得基于TransR模型的三元组实体的嵌入;
其中,γ为超参数,衡量正确三元组和错误三元组的边界,d(h+r,t)=||hr+r-tr||;d(h+r,t)为hr+r和tr的距离度量,d(h′+r′,t′)相同;pos为知识图谱中的正确三元组。
3.根据权利要求1所述的融合实体描述及类型的知识图谱表示学习方法,其特征在于,步骤S2中三元组实体描述的获取方法为:S21:随机生成N维的文档向量xparagraph-id和N维文档中每个词语的独热形式的词向量xi-m,...,i+m,其中i是指由上下文预测的当前中心词的标号,m是指窗口大小;
S22:对N维的文档向量和词向量进行降维:
vi-m=Vxi-m,vi-m+1=Vxi-m+1,...,vi+m=Vxi+m,vparagrap k-id=Vxparagrap h-id其中,V是一个n行N列的单位矩阵,n
S23:通过词向量和文档向量可以得到中心词向量yi:
其中,U为一个N行n列的单位矩阵,
S24:将中心词向量通过softmax函数进行归一化:
S25:优化目标函数;
S26:使用随机梯度下降的优化方法,最小化目标函数,更新并输出向量,得到实体描述的嵌入。
4.根据权利要求2所述的融合实体描述及类型的知识图谱表示学习方法,其特征在于,步骤S3中三元组实体类型的获取方法为:对于特定的三元组(h,r,t),头实体映射矩阵的计算式为:其中,Crh代表给定的关系r下,头实体的关系类型集合,对于每一个实体类型c,ci代表实体e属于的第i个类型, 为ci的映射矩阵,αi为ci对应的权重;
其中,Crt为给定关系r下,尾实体的关系类型集合,Mc是类型c的投影矩阵,Mc被定义为:其中,m是层次类型的层数, 表示第i个子类型c(i)的映射矩阵;
最后,将Mrh、Mrt与TransE得到的三元组实体嵌入相乘得到实体类型的嵌入。
5.根据权利要求4所述的融合实体描述及类型的知识图谱表示学习方法,其特征在于,步骤S4中损失函数为:其中,γ为超参数,衡量正确三元组和错误三元组的边界,T为正例三元组集合,T’为负例三元组集合,通过随机替换正例三元组的头实体或者尾实体或者关系得到,即:T′={(h′,r,t)|h′∈E}∪{(h,r′,t)|r′∈R}∪{(h,r,t′)|t′∈E}d(h+r,t)=||h+r-t||,代表h+r和t的距离度量;
通过步骤S1得到三元组的嵌入es,通过步骤S2得到实体描述信息的嵌入ed,通过步骤S3得到实体类型信息的描述et,初始化向量通过 组合成最终模型的初始向量, 代表拼接操作;采用链接预测和三元组分类进行评估。