欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020101216545
申请人: 陕西师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于旅游领域知识图谱的知识问答检索方法,其特征在于,包括以下步骤:使用Python程序爬取旅游网站信息,构建旅游领域知识图谱;

用户输入与旅游相关的自然语言问句;

分析用户提出的自然语言问句,对自然语言进行分词,并对每个词语进行词性标注;

以“实体‑属性‑属性值”的形式存储知识图谱,将问句与知识图谱进行链接;

根据链接出的“实体”和“属性”,从知识图谱中查询相关三元组,并返回属性值;

所述“实体”和“属性”进行链接的方式为:根据已经标注好的词语词性识别出实体;将识别出的问句实体和知识图谱中的实体进行距离计算,选取距离最短的实体进行链接;使用神经网络模型链接问句和知识图谱中的属性,通过模型计算之后返回结果高的属性进行链接;

通过余弦相似度算法计算实体间的相似度,计算公式如下:

式中,A表示问句实体,B表示知识图谱中的实体,n表示词向量的维度;

由上式计算出两个实体之间的距离,通过比较,选择与问句实体距离最近的知识图谱中的实体进行链接;链接到实体和属性之后,遍历知识图谱中的三元组,选取能够同时匹配实体和属性的三元组,将该三元组中的属性值作为答案返回给用户;

所述的神经网络模型采用CNN模型,将问句和属性同时输入模型,在输入层计算问句和属性的相似度得到相似度矩阵,将相似度矩阵进行卷积池化,选择最终结果的平均值高的属性链接。

2.根据权利要求1所述基于旅游领域知识图谱的知识问答检索方法,其特征在于:构建旅游领域知识图谱包括两种实现方法,一种方法是使用Python程序爬取旅游网站信息,将抽取出的旅游实体批次导入Neo4j图数据库,将错误数据进行修改,对于空缺数据进行补齐,如果没有数据则使用null进行填充,并设置相关联实体集之间的属性,对设置好的数据进行处理得到“实体‑属性‑属性值”三元组;另一种方法是人工收集与旅游有关的实体和属性值,包括景点、酒店、美食、门票、景点等级、地址以及消费价格,手动添加到知识图谱当中。

3.根据权利要求1所述基于旅游领域知识图谱的知识问答检索方法,其特征在于:采用结巴库对用户提出的自然语言问句进行分词和词性标注,将长句划分为一个一个的词语,并对词语进行词性标注;在此过程中,找出第一个词性为名词的词语,如果该词语的下一个词语还是名词,则将两个词语进行拼接,直至词性不是名词为止,将整合得到的词语输出。

4.根据权利要求1所述基于旅游领域知识图谱的知识问答检索方法,其特征在于:使用CNN模型进行属性链接的具体实现方法如下:

输入层设置;

1)将问句和属性分词,并去除问句中的停用词;

2)使用训练好的词向量模型计算问句中各词语和属性中各词语的相似度,训练词向量使用Google公司推出的word2vec模型,数据集使用中文维基百科数据;

3)将注意力机制加入输入层,在进行相似度计算之后根据相似度大小的不同进行加权,得到最终的相似度矩阵;所述的注意力机制公式如下:Ai,j=score(Q[i,:],p[j,:])

式中,Q表示问句,i表示问句中的词语;p表示知识图谱中的属性,j表示属性中的词语;

dis(i,j)表示i和j的相似度;

卷积层设置;

卷积层用于实现特征选取,设置滑动窗口来扫描输入层的矩阵,卷积层计算表达式如下:式中,x表示相似度矩阵,n和m分别是矩阵的行数和列数;

池化层设置;

池化层用于从卷积层的输入中提取有效特征,进而丢弃不相关的数据,减少参数量;采用max‑pooling方法实现池化层,将矩阵中两个连续的数字进行比较,抛弃其中小的数值;

输出层设置;

通过输入层将文本数据转化为相似度矩阵,卷积层对矩阵进行运算提取特征,池化层通过池化选择无关数据丢弃,最后进入输出层;输出层实现卷积层和池化层的全连接,经过多次循环,得到最终的矩阵;将结果中的数据进行平均运算并排序,得分最高的属性输出。

5.一种基于旅游领域知识图谱的知识问答检索装置,其特征在于,包括:旅游领域知识图谱构建模块,能够爬取旅游网站信息;

自然语言问句输入模块;

自然语言问句分析模块,用于对输入的自然语言分词,并对每个词语进行词性标注;

知识图谱存储模块,以“实体‑属性‑属性值”的形式存储知识图谱;

知识图谱链接模块,用于将自然语言问句与知识图谱进行链接;

属性值输出模块,根据链接出的“实体”和“属性”,查询相关三元组,并返回属性值;

所述“实体”和“属性”进行链接的方式为:根据已经标注好的词语词性识别出实体;将识别出的问句实体和知识图谱中的实体进行距离计算,选取距离最短的实体进行链接;使用神经网络模型链接问句和知识图谱中的属性,通过模型计算之后返回结果高的属性进行链接;

通过余弦相似度算法计算实体间的相似度,计算公式如下:

式中,A表示问句实体,B表示知识图谱中的实体,n表示词向量的维度;

由上式计算出两个实体之间的距离,通过比较,选择与问句实体距离最近的知识图谱中的实体进行链接;链接到实体和属性之后,遍历知识图谱中的三元组,选取能够同时匹配实体和属性的三元组,将该三元组中的属性值作为答案返回给用户;

所述的神经网络模型采用CNN模型,将问句和属性同时输入模型,在输入层计算问句和属性的相似度得到相似度矩阵,将相似度矩阵进行卷积池化,选择最终结果的平均值高的属性链接。

6.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述基于旅游领域知识图谱的知识问答检索方法的步骤。

7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述基于旅游领域知识图谱的知识问答检索方法的步骤。