欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018107824725
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种面向RDF知识图谱的语义近似查询方法,其特征在于,该方法包含两个阶段:离线语料生成和训练阶段以及在线实时查询阶段;其中:所述离线语料生成和训练阶段包含如下步骤:

步骤1.1:实体划分

根据实体的类型,对RDF知识图谱进行划分,使得相同类型的实体聚集在一起进行语料的生成;

步骤1.2:语料生成

根据RDF知识图谱中实体与谓词的语义局部性特征,通过提出一种BFS-DFS混合图遍历语料生成算法CorpusGeneration,对知识图谱数据进行有效重构,形成可训练的文本语料;

根据步骤1.1划分好的实体集,对n个实体集合的每一个实体集都进行语料生成;

步骤1.3:语料训练

利用gensim的word2vec模型对步骤1.2中生成的文本语料进行上下文敏感的语义学习,得到关于该语料的语义模型,通过加载该模型获取语料中每一个词的topK个词义最相近的相关词,构成关于这个词的相关词集合,使之可以在进行在线实时查询的时候被使用;

所述在线实时查询阶段包含如下步骤:

步骤2.1:SPARQL解析

对用户给定的SPARQL查询语句进行语法分析,解析出用户指定实体、用户期望返回宾语的类型、用户指定的关系谓词,并根据加载步骤1.3中得到的语义模型计算出指定关系谓词的相关词,完成适当的语义扩展;

步骤2.2:近似迭代查询

通过解析用户给定的SPARQL查询语句,得到主语实体、指定谓词以及宾语实体类型;该查询从主语实体出发,借助步骤1.3扩展得到指定谓词的语义相关词集合,在知识图谱中匹配由主语实体和相关谓词构成的子图模式,从而找到与主语实体一跳相关的宾语实体,并判断该宾语实体的类型是否属于用户指定的实体类型,若符合则加入结果集中;再从已得到的结果集中的宾语实体出发,迭代上述操作可找到与主语实体两跳相关的宾语实体结果;如此迭代查询,直到找出所有满足条件的宾语实体,再将迭代过程中记录的宾语实体拼接成一条路径,即找到指定主语实体到结果宾语的路径。

2.根据权利要求1所述的一种面向RDF知识图谱的语义近似查询方法,其特征在于:步骤1.2进行语料生成时提出的一种BFS-DFS混合图遍历语料生成算法CorpusGeneration具体是:设定输入参数E为知识图谱划分后选定的实体集;O为从RDF知识图谱得到该实体集中实体的类型关系图结构;n为给定的语料限定层数参数;T为已经作为起始节点访问过的实体集合;

首先设置T为空,表明初始时实体集E中的任何实体节点都未被访问;根据已访问节点集合T以及关于实体集E中关于实体类型的关系结构O,从实体集E中选定一个实体estart作为起始中心节点,并从E集合中删除该实体,避免之后对该实体进行重复访问处理;当E不为空时,首先初始化Pstart为空,Pstart为起始节点estart到以estart为中心n层范围内的其他节点的路径,不包括起始节点estart,Cstart以是关于起始节点estart的语料文本,把estart、n、Pstart、Cstart以及T作为输入做nDepthBFS算法操作,在nDepthBFS算法中生成的语料文本信息更新到Cstart,同时更新T;退出nDepthBFS算法,把更新完的Cstart加入到语料集C中;根据更新完的T以及O,并在实体集E中过滤掉已经作为中心节点访问过的集合T,重新选定一个起始中心节点,重复以上操作直到实体集E中的所有实体节点都被访问。

3.根据权利要求2所述的一种面向RDF知识图谱的语义近似查询方法,其特征在于:

nDepthBFS算法中生成语料信息更新Cstart以及T的过程按如下进行:

设定输入参数estart为起始中心节点,n为给定的语料限定层数参数,Pstart为estart到以estart为中心n层范围内的其他节点的路径,Cstart为关于当前中心点estart的语料文本信息,T为已经作为起始节点访问过的实体集合;

首先判断当前语料限定层数n是否小于等于零,如果满足n小于等于零的条件,说明当前范围内中心节点周围已无其他节点与边,则把当前中心节点estart加到路径Pstart中,然后把当前路径Pstart为加入到语料集Cstart中,并且把estart加入到T中,表明中心节点estart已经被访问过;如果不满足n小于等于零的条件,则把当前中心节点estart加到路径Pstart中,并且把estart加入到T中,表明中心节点estart已经被访问过,然后找出中心节点estart的邻接节点,对于每一个estart的邻接节点都做nDepthBFS递归操作,其中输入参数更新为n-1层,直到中心节点周围已无其他节点与边。

4.根据权利要求1至3中任一项所述的一种面向RDF知识图谱的语义近似查询方法,其特征在于:步骤2.2中提出的一种近似迭代查询方法semanticApproQuery具体是:设定输入参数estart为用户指定的主语实体节点,r'为指定谓语关系r的相似词集合,tend为用户期望返回结果实体的类型、P为查询结果的子路径、G为总查询结果集;

首先判断起始节点estart的类型是否是tend类型,若条件满足,则把当前子路径P加入到查询结果集G中;若条件不满足,则获取当前起始节点estart的邻接谓语关系词,判断该词是否属于r',若属于,则获取当前起始节点estart与当前谓语关系词ri组成的三元组关系中的另一个节点e'start,把该节点加入到子路径P中;然后将e'start、r'、tend、G、P作为新的输入参数,递归调用semanticApproQuery算法,直到找到当前节点的类型是tend才结束。