欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019102799007
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种语义敏感的RDF知识图谱近似查询方法,该方法包含如下步骤:步骤1:领域知识子图划分

步骤1.1:领域知识子图划分的初始化

根据RDF知识图谱O中实体的类型,将属于一个领域知识的所有相关实体汇集成领域知识子图,得到O1、O2……On,其中Oi∈O,i=1,2,3…n,领域知识子图Oi中都包含了相同类型实体集合Ei,其中Ei∈E,对于领域知识子图Oi中的每个实体 都有步骤1.2:领域知识子图划分的完善

针对步骤1.1中的领域知识子图Oi中的实体集合Ei,逐个遍历实体 完善领域知识子图的划分:a)将实体 作为根节点 通过广度优先遍历方法在RDF知识图谱O中向外遍历;

b)对探查到的每个实体,考虑该实体和根节点 周围谓词的分布,据此进行基于Jaccard和余弦相似度相结合的混合实体相似度计算;当混合实体相似度大于设定阈值时,将其纳入该领域知识子图,遍历直至找不到满足阈值条件的实体终止;

最终得到与领域知识相关的实体构成的领域知识子图,完成领域知识子图的划分;

步骤2:谓词的语义相似度计算

针对步骤1生成的每个领域知识子图Oi,将其构建成TransE的输入数据,利用随机梯度下降法调整其向量表示最小化TransE的目标函数,以获取所有实体与谓词的语义向量,形成模型Mi;

接着加载模型Mi,对领域知识子图Oi中每一个谓词计算其与其它谓词在模型中语义向量的距离,通过取负再归一化得到谓词之间的语义相似度值;最终,任意两个谓词间都将具有一个唯一的语义相似度值,可在后续查询中使用;

步骤3:语义敏感的Top‑k近似查询,这个阶段具体包含如下步骤:步骤3.1:待查领域知识子图的选取

用户给定一个查询图,通过一组明确的实体和谓词来查询所有符合某类型约束的未知实体;根据用户指定的期望返回的实体类型t选取领域知识子图Ot,根据用户指定的关系谓词p选取该谓词与领域知识子图Ot中其他谓词的语义相似度,维持一个对应关系谓词p的谓词语义相似度表S,作为领域知识子图Ot中实体与实体之间边的权重,将用户指定的实体作为查询的起始点estart;若用户指定多个实体及其不同的关系谓词,则维持不同起始点对应不同谓词语义相似度表,后续的查询使用多线程的方式,每一线程使用不同的起始点和谓词语义相似度表进行探查;

步骤3.2:语义敏感的路径探查

a)创建一个优先级队列PQ用来存放需要向外遍历的实体及起始点到该实体经过的实体集合,即起始点到达该实体的路径;

b)将起始点estart放入优先级队列PQ中,优先级为1,路径{estart};

c)从优先级队列PQ取出队列中的元素,假设取出的元素代表的实体为e,路径代表的实体集合为Path,循环遍历完e的邻居实体enb;

d)新建实体集合NewPath,添加实体集合Path中的元素,并添加邻居实体enb;

e)若邻居实体类型符合用户指定返回的实体类型t,则将邻居实体enb和集合NewPath添加到结果集合F中,否则利用路径选择收益模型衡量经过邻居实体enb的路径能够找到最优答案的代价f,将邻居实体enb和集合NewPath放入优先级队列PQ当中,代价f作为其在队列中的优先级;

f)不断从优先级队列PQ取出元素,进行第c步到第e步,直到优先级队列PQ中没有任何元素或者结果集F的元素个数达到用户指定的Top‑k个数n结束。

2.根据权利要求1所述的一种语义敏感的RDF知识图谱近似查询方法,其特征在于:步骤1.2中计算给定实体的Jaccard和余弦相似度相结合的混合相似度计算并判断是否划入领域知识子图,具体是:在相似度的计算上分别根据实体相连的谓词计算Jaccard相似度和余弦相似度;

Jaccard相似度公式:

其中C、S为实体相连的谓词集合;

余弦相似度公式:

其中a、b为实体相连的谓词集合根据数量对应成的向量;

根据谓词的Jaccard相似度和余弦相似度,利用判断公式可以判断实体是否划入子图,判断公式如下:其中y1、y2为Jaccard相似度阈值,x为余弦相似度阈值。

3.根据权利要求1所述的一种语义敏感的RDF知识图谱近似查询方法,其特征在于:步骤3.2中利用路径选择收益模型来引导路径探查,保证能够找到最优路径,即语义相似度最大的路径;

其中路径选择收益模型计算代价f的公式为:

其中,v为遍历到的实体,u为起始点,l为起始点到遍历到的实体的路径长度,si为第i条路径上的谓词在谓词相似度表S中的相似度, 为起始点到遍历到的实体路径上的谓词相似度的乘积,m(v)为该实体的最大出度,k为大于l的常数,k只需要取大于子图最大深度的值即可。