欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020101858922
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种语义敏感的知识图谱随机游走采样方法,该方法包含如下步骤:步骤1:谓词语义相似度计算

以知识图谱G为输入,利用知识图谱嵌入模型TransE对知识图谱中的实体与谓词进行学习表示,形成一种将实体与关系嵌入到低维向量空间中的模型M;

接着通过模型M计算G中每一个谓词与其他谓词之间的语义向量距离,再通过归一化得到谓词之间标准的语义相似度值;

步骤2:语义敏感的n跳子图框定

步骤2.1:语义敏感的n跳子图框定的初始化用户给定一个查询图,包含三类信息:已知实体e0,谓词p,目标实体类型t;

根据查询图中谓词p选取该谓词与知识图谱G中其他谓词的语义相似度,维持一个关于谓词p的语义映射表H,作为后续知识图谱G中实体与实体间边的权重;

目标是根据已知实体e0作为子图框定的起始点,对其n跳领域进行搜索,保留语义相似度大于阈值τ的实体及相关谓词,作为随机游走采样的总体空间;

步骤2.2:语义敏感的n跳子图框定的过程

创建两个集合C1和C2,分别用来保存n跳子图的实体及两个实体间相连的边;

接着将实体e0作为根结点,通过广度优先搜索算法在知识图谱G中往外遍历;

循环遍历完e0的邻居实体e,并记录当前广度优先搜索的层数layer;

若邻居实体e的类型为t,则直接将该实体添加于集合C1中,将连接到邻居实体e的边添加于集合C2中;若邻居实体e的类型符合目标实体类型t,则利用路径选择收益模型计算到邻居实体e的代价pss;

若代价pss大于阈值τ且从邻居实体e出发往后遍历n-layer层能找到实体类型符合目标实体类型t的实体,则将该实体添加于集合C1中,将连接到实体e的边添加于集合C2中,新建候选集合CSet,将符合条件的实体添加到候选集合CSet中作为下次迭代的结点;

不断迭代直到当前遍历层数layer大于用户限定跳数n结束,最终框定出n跳子图G′;

步骤3:转移矩阵的设计

针对步骤2框定出的n跳子图G′,根据语义相似性来设计该子图的转移矩阵;

步骤3.1:基于邻边语义相似性的归一化

对于子图中的每一个实体,考虑该实体与其周围相连实体的谓词分布,据此进行基于邻边语义相似性的归一化;

假设当前实体ei周围相连实体为N(ei),当前实体ei与周围相连实体ej的边为eij,其中ej∈N(ei),通过邻边语义相似性归一化公式计算实体间的转移概率pij,从而得到转移矩阵,其中转移矩阵的元素即为转移概率pij;

步骤3.2:转移概率的衰减

为了消除无效点对转移概率的影响,给限定层数m之外的边进行转移概率衰减;用d表示已知实体e0与当前实体ei的距离,当d>m时,进行转移概率的衰减,当d≤m时,转移概率不变;

步骤4:随机游走达到马尔科夫稳态

根据步骤3生成的转移矩阵,在子图G′上进行随机游走,获得一个稳定的概率分布π,对子图G′上任意一实体都有其对应的稳态访问概率πi,且满足步骤5:基于稳态概率分布的采样

筛选出子图G′中所有类型为t的实体,得到符合类型的实体集合Et,其中实体分别为对应稳态概率分别为 对集合Et中m个实体的稳态概率进行归一化;

用户给定样本容量k,创建结果集R存放样本点,循环遍历集合Et,假设当前遍历到的结点为 其稳态访问概率为接着针对每一个遍历到的结点生成一个随机小数r,0≤r≤1;若 则将该结点存放于结果集R中,若 不做处理;

最终循环遍历直到结果集中样本点数量达到用户指定的样本容量k时结束。

2.根据权利要求1所述的一种语义敏感的知识图谱随机游走采样方法,其特征在于:其中路径选择收益模型计算代价pss的公式为:其中,n为从已知实体e0到遍历到的实体的路径长度,wi为从已知实体e0到遍历到的实体点的所有边的权重,从语义映射表H中获得; wi为已知实体e0到遍历到的实体路径上的权重的乘积。

3.根据权利要求1所述的一种语义敏感的知识图谱随机游走采样方法,其特征在于:其中邻边语义相似性归一化公式为:

pij=Z·M(eij)

其中Z为归一化常数,M(eij)为边eij在语义映射表H中的映射值。

4.根据权利要求1所述的一种语义敏感的知识图谱随机游走采样方法,其特征在于:对集合Et中m个实体的稳态概率按如下公式进行归一化其中Z为归一化常数。