欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020109376561
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于知识图谱补全的问答方法,其特征在于:包括以下步骤:S1:将输入的自然语言问题Q划分为词或短语;

S2:利用字向量模型BERT将词表征为向量,得到矩阵作为模型输入;

S3:利用实体识别技术识别Q中的实体equestion,获取候选实体集{eKGs};

S4:查询eKGs的类别c,用c替换Q中的实体equestion,标记为Qc;

S5:构建声明式查询cypher,获取候选三元组集{(ei,rij,ej)},从而获取到候选关系集{rij};

S6:基于Qc和rij的关系链接:计算Qc和rij的余弦相似度,获取其语义相似度;

S7:在KGs中,如果eKGs和rij之间缺少关系,则执行步骤S8,否则执行步骤S11;

S8:学习实体eKGs和eKGs邻域内实体的新的向量表示;

S9:估计中心实体邻域内实体的重要性;

S10:基于现存的相关的三元组执行关系预测;

S11:基于实体和关系的知识图推理,获得答案A。

2.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:在所述步骤S1中,通过HanLP与Stanford parser中的CRF句法分析器与最大熵依存句法分析器将Q划分为词或短语。

3.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:在步骤S3中,具体包括以下步骤:S31:利用双向长短期记忆网络Bi‑LSTM模型对问句中每个单词是否为实体进行预测;

S32:采用前、后向两个长短期记忆网络LSTM单元对输入序列(x1,x2,...,xt‑1,xt)进行处理,输出为两个LSTM输出向量的拼接 其中, 为前向序列的输出, 为后向序列的输出;

S33:Bi‑LSTM层的输出被送入sigmoid层进行处理,即输出层的输出向量为y=(y1,y2,...,yn),其中n为输入序列的长度,输出向量长度与输入序列是保持一致的,yi对应输入Q中第i个单词的标注信息,如果为“1”则表示实体,反之则不是;

S34:使用均方误差作为损失函数,即

其中,ω为权重,b为偏差,yi为模型的预测值,zi为目标值,λ为控制正规化的超参数,为L2正规化。

4.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:步骤S4中,具体包括:利用潜在狄利克雷主题模型来概念化Q中的实体,通过结合主题模型潜在狄利克雷分配和一个大规模概率KGs,捕获单词之间的语义关系,开发一个基于语料库的上下文相关概念化框架。

5.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:所述步骤S5中,在识别到Q中实体后,根据实体名称在KGs中进行声明式查询cypher,查询到相关三元组{(ei,rij,ej)},从而获取到候选关系集{rij}。

6.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:所述步骤S6中,在关系链接任务中引入卷积神经网络CNNs模型,提取问句中关于关系的语义信息,对候选关系用CNNs进行处理,将得到的问句关系向量和知识图谱关系向量进行相似度匹配,通过计算余弦相似度来获取其语义相似度,即其中,θ是向量Qc和向量rij之间的夹角, 是Qc语义向量的第i个元素,rij是候选关系的第j个元素。

7.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:所述步骤S8中,通过基于注意力的图嵌入AGE模型从实体的n跳邻域内学习实体的新的向量表示;

实体ei的一个三元组(ei,rij,ej)的向量表示为: 其中,分别为实体ei、关系rij和实体ej的向量表示,ω1表示线性转换矩阵;

学习每个相关三元组的绝对注意力值 计算如下:其中,Leaky Re LU是一种非线性激活函数,ω2表示线性变换矩阵;

绝对注意力值 通过softmax函数对实体ei邻域内的所有实体进行归一化相对注意值 计算如下:其中 表示实体ei的邻域, 表示连接实体ei和实体em的关系集;

实体ei的新的向量表示如下所示:

其中 表示连接实体ei和实体ej的关系集;

实体ei的最终向量表示为:

8.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:步骤S9中,利用实体重要性估计模型对中心实体n跳邻域内实体的重要性进行估计,所述实体重要性估计模型包括评分网络层SNL、多个得分聚合层SAL和中心度调整层CAL;

首先,SNL利用输入实体的特征来获得初始估计分数,SNL计算实体ei的初始得分为:其中, 为实体ei的新的向量表示;

然后,每个SAL包含一定数量的分数聚合头,每个分数聚合头独立执行分数聚合和注意力计算;在第一个SAL的每个分数聚合头中,从SNL接收实体重要性评分的初始估计ι前一个SAL的输出用作下一个SAL的输入,第ι层的SAL包含N 个分数聚合头,ι独立产生N个实体重要度估计

ι

然后,在N个分数估计上执行一个最大池函数;

重要性分数的估计如下:

重要性分数的聚合 表示为:

其中,Ni表示实体的n跳邻域实体, 为第ι个SAL的第κ个分数聚合头中ei和ej之间的相对注意值参数;

在第ι个SAL的第κ个分数聚合头中,相对注意值 定义如下:其中,Leaky Re LU为非线性激活函数,ω2为权向量, 为实体ei与实体ej之间关系的向量表示, 为实体ei与实体ek关系的向量表示;

对最后一层的第κ个分数聚合头应用一种缩放和移动中心性,表示为:其中, 为实体ei的初始中心性;

基于最终SAL的每个分数聚合头,对最终SAL输出的中心性调整进行平均操作,采用非线性方法Leaky Re LU,计算最终的估计 如下:

9.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:步骤S10中,具体包括:关系合成:通过在n‑hop邻域之间引入一条辅助边,作为辅助关系,所述辅助关系的向量表示为所有现存的相关关系的向量表示之和。

10.根据权利要求1所述的基于知识图谱补全的问答方法,其特征在于:步骤S11具体包括:基于实体识别技术,对于问题中的实体,在KGs中获得候选实体;

对于问题所包含的关系,通过关系链接技术和关系预测技术得到候选关系;

基于候选实体和候选关系查询KGs,获得答案A。