欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020112608460
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于元路径的异构网络相似节点查询方法,包括以下步骤:

步骤1:生成路径贪婪树;根据输入的源节点和短文本描述对贪婪树进行扩展;在扩展贪婪树过程中进行短文本的语义匹配;

1.1构建贪婪树根节点;贪婪树的对象结点包括两个部分的信息,一个是路径扩展过程中生成的节点对列表,其中节点对按照字典形式进行存储,将源节点保存成字典的键,目标节点保存成字典的值;另一个为判断当前贪婪树对象是否还能向下扩展的标记,当标记为True时,表示当前对象可以继续向下扩展,标记为False时表示当前对象是路径的终点或达到了元路径的长度阈值,连接贪婪树对象的边使用异构信息网络中的边类型来标注,贪婪树的根节点由于没有扩展,其中源节点对应的值为空;

1.2递归扩展贪婪树;在扩展贪婪树过程中,根据贪婪树的边类型判断下一个节点是否为电影节点;若是电影节点,则进行步骤1.3的语义匹配过程;若不是电影节点,则继续步骤

1.2递归扩展贪婪树过程,直到目标节点出现在贪婪树叶节点的值列表中,或路径达到长度阈值;

1.3对查询输入的短文本和电影文本简介进行语义匹配;影视信息网络是星型结构的网络,其中存在一个中心对象,其余类型的对象均与该中心对象相连,中心对象的属性可以影响网络中所有类型的关系;在影视信息网络中,该中心对象是电影,影人之间的联系都是通过电影产生的,同时电影内容中包含丰富的语义,这些语义可以从节点属性的角度突出节点间连接关系的特点;电影简介使用一小段文本概括电影内容,可以理解成短文本数据;

同时输入的查询文本是短文本数据,因此找到与查询时输入的短文本查询语义相似的电影简介,可以得到符合查询语义的电影内容,从而生成符合短文本语义的元路径;对电影简介和用户输入的短文本之间的语义匹配步包括:(1)使用基于TextRank的开源结巴分词算法对查询输入的短文本进行分词;将输入的短文本记为Q,分词后每篇文档由词序列可表示为[q0,q1,…qi…qn],其中qi为第i个词,n为词序列长度;

(2)使用定向Skip-Gram模型(Directional Skip-Gram,简称DSG)得到每个词的词向量,记为Vqi;

(3)在得到词向量后,通过公式(1)计算词向量的均值,得到句向量;

(4)对电影的文本简介进行分词,将一篇电影简介记为T,分词后可以得到词序列[t0,…tj,…tm]和每个词的TF-IDF值作为权重,权重序列为[w0,…wj,…wm];

(5)采用了命名实体识别技术来处理电影文本简介中的人名,将识别为人名的词从分词结果中删除;

(6)对电影简介分词后的词汇进行词性分析,过滤掉动词、形容词、副词等修饰词,保留名词;

(7)使用DSG模型得到每个词tj的词向量Vtj,然后通过公式(2)计算加权平均句向量VT;

(6)基于余弦相似度度量得到两段文本的相似性,计算公式为:

步骤2:确定元路径序列;首先遍历贪婪树得到边类型序列,然后按照边类型序列确定节点类型序列;对生成的贪婪树进行遍历,从中分离出连接输入节点对的路径;L为路径集合,在L中保存所有可能的元路径边序列;将根节点记为第i层的第j个节点,此时i=0,j=

0;

2.1从根节点开始向下遍历;根节点为当前节点,贪婪树第i+1层的第j个节点为下一节点,此处j=0;将连接当前节点和下一节点的边放入当前的路径序列l中,将下一节点的字典值也就是目标节点集合的长度记为该节点的出度;

2.2更新当前节点为上一步的下一节点,下一节点为贪婪树第i+1层第j个叶节点,此处j=0;若下一节点的标记为True,将连接当前节点和下一节点的边放入当前的路径序列l中,将下一节点的字典值也就是目标节点集合的长度记为该节点的出度;将当前的路径序列l保存在集合L中,并令j=j+1,进行步骤2.3;否则,判断下一节点是否还有扩展边,若有则将连接当前节点和下一节点的边放入当前的路径序列l中,将下一节点的字典值也就是目标节点集合的长度记为该节点的出度;令i=i+1,j=0重复步骤2.2;若下一节点没有扩展边,令j=j+1,进行步骤2.3;

2.3更新下一节点为贪婪树第i+1层第j个叶节点;若下一节点的标记为True,将连接当前节点和下一节点的边放入当前的路径序列l中,将下一节点的字典值也就是目标节点集合的长度记为该节点的出度;将当前的路径序列l保存在集合L中,并令j=j+1,进行步骤

2.3;否则,判断下一节点是否还有扩展边,若有则将连接当前节点和下一节点的边放入当前的路径序列l中,将下一节点的字典值也就是目标节点集合的长度记为该节点的出度;令i=i+1,j=0重复步骤2.2;若下一节点没有扩展边,令j=j+1,进行步骤2.3;

2.4完成上述遍历后,得到包含边类型序列的元路径集合L={l0,…li,…};对L中的每条元路径li={t0,…,tj,…},根据其中的边类型tj确定节点类型;最终得到包含节点类型序列和边类型序列的完整元路径;

步骤3:计算元路径的重要度;首先根据影响元路径重要度的因素,定义元路径重要度的计算公式;借助贪婪树叶节点中的实例节点数量,计算元路径的重要度,元路径的重要度计算公式为:Is,t(P)=Ss,t(P)*Rs,t(P)*Penalty(|P|)(P∈Ps→t) (4)其中,重要度分为Ss,t(P),Rs,t(P)和Penalty(|P|)三个部分;

3.1计算长度惩罚函数;从步骤2得到的元路径中获取源路径长度,使用β|P|作为惩罚函数,其中β是一个取值为0.5的衰减系数;

3.2计算元路径稀有度;

稀有度计算函数用于评估在给定异构信息网络G=(V,E)中,元路径P在与输入的节点对相似的其他节点对中的稀有程度,使用Ds,t来表示与输入节点对相似的节点对,其定义为:Ds,t=Dt∪Ds   (5)

其中,

Dt中不包括t,Ds中不包括s.元路径稀有性可以通过公式(8)计算得到;

3.3计算元路径强度;元路径重要度支持函数为:

Ss,t(P)=Strength(P)*MNIss,t(P)    (9)

其中,MNIs(p)计算元路径P中的最小实例数,计算如公式(10)所示,pi为元路径上第i个节点的实例数量;

Strenth(p)计算元路径P的强度系数,公式(11)定义了计算方法;假设由公式(10)得到的拥有最小实例数的节点为A,节点A的出度为O(A),节点A的入度为I(A);当节点A为电影节点时,节点A的出度通过公式(12)计算得到,pA为节点A的实例集合;由节点A实例集合中的每个节点的向量与短文本向量的相似度求和得到节点A的出度;

3.4计算元路径重要度;通过步骤3.1,3.2,3.3分别计算得到元路径长度衰减系数,稀有度和强度后,根据公式(4)计算最终的元路径重要度;

步骤4:结合多条元路径生成查询实例;符合元路径语义的实例节点对在元路径的语义上具有较高的相似性;因此要得到查询结果实例,只需要找到在每一条元路径语义上都有较高相似性的节点对;

4.1计算节点对基于元路径的相似性;节点对根据不同元路径的相似性计算公式为:

其中,ρei(vi,Ci+1)表示类型为Ci+1,根据边ei连接到节点vi的节点x的集合;Pi...n表示元路径中从节点Ci到Cn的子序列,α为固定参数,设置为0.5;当节点x的类型Ci+1为电影时,使用电影文本简介和查询短文本的相似度和∑sim(Vx,VQ)来替代公式(13)中的|ρei(vi,Ci+1)|;

4.2计算节点对实体s和t之间的相似性;使用线性聚合函数计算实体s和t之间的相似性σ(s,t|P),将元路径对应的重要度作为相似性的权重,聚合函数为:其中,Ij表示不同元路径Pj对应的重要度;

4.3根据相似性矩阵得到查询实例;得到基于元路径的节点相似性后,为每条元路径计算一个相似性矩阵;若影人节点的数量为m,相似性矩阵的大小为m×m,将元路径P的相似性矩阵记为SP:每条元路径第一次被生成时,就构建好相应的相似性矩阵,这些矩阵可以被重复利用,每次结合多条元路径进行查询时,只需要选取对应元路径的相似性矩阵,记录所有矩阵相同位置处值不为0的索引和值,根据索引即可得到满足所有元路径语义的节点对,计算这些节点对的相似性,即可得到查询结果。