欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022114132706
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于社区查询和高维向量检索的科技专家检索方法,其特征在于:具体包括以下步骤:步骤1、获取科技领域数据,建立专家集合A={a1,a2,...,aS}和学术文档集合P={p1,p2,...,pN},提取专家与文章之间的著作关系A‑P,以及文章和文章之间的引用关系P‑P;

步骤2、提取学术文档的文本信息;对文档文本信息进行分词、去停用词处理;通过BM25计算文本关键词匹配程度,得到文本相似度;将文本相似度大于设定阈值的文档pi、pj组成学术文档关系对M,i、j=1,2,...N,i≠j;

步骤3、利用科技领域数据对词向量模型进行预训练,然后将学术文档输入预训练后的词向量模型,得到学术文档的初始向量表示;再将步骤2中得到的学术文档关系对作为正样本,将相似度低的学术文档对作为负样本,生成文档正负例训练样本;将正负例训练样本输入神经网络模型进行训练,调整词向量模型,将文本相似度嵌入文档语义信息中,得到二次表征的文档语义向量;

步骤4、根据专家与学术文档的著作关系、学术文档间的引用关系和关系对,构建学术异构图;所述学术异构图以文档关系对M、学术文档P以及专家A作为节点,以著作关系、引用关系以及相似度作为连边;再通过元路径将异构图转化成以专家为节点的同构图,在同构图中寻找专家的k‑core紧密社区;

步骤5、依次对每个专家名下的学术文档进行层次聚类,根据聚类结果获得每个专家的研究领域;将一个研究领域下所有学术文档的语义向量池化为一个特征提取向量,用专家所有研究领域对应的特征提取向量组成该专家的专家矩阵;

步骤6、将专家k‑core紧密社区嵌入专家向量,具体步骤如下:S6‑1,根据专家as和af所属的紧密社区以及专家矩阵中领域聚簇csu和cfυ的向量距离进行分类,包括以下4种情况:①对于两个领域聚簇csu和cfυ,其作者as和af属于同一个k‑core专家紧密社区,且②对于两个领域聚簇csu和cfυ,其作者as和af属于不同的k‑core专家紧密社区,且③对于两个领域聚簇csu和cfυ,其作者as和af属于不同的k‑core专家紧密社区,且④对于两个领域聚簇csu和cfυ,其作者as和af属于同一个k‑core专家紧密社区,且其中,csu和cfυ分别为专家as的第u个领域聚簇和专家af的第υ个领域聚簇, 和 分别为两个领域聚簇对应的向量表示,τ表示设定的领域聚簇距离阈值;

+ ‑

S6‑2,将第一种情况记为完全正样本c ,第二种情况记为完全负样本c ,对于第三和第※ + ‑ *四种情况,记为不完全正样本c ,构建一个领域聚簇四元组

+ ‑ *

S6‑3,将一个领域聚簇四元组作为训练样本输入多层感知机,对训练样本进行编码得到 再通过训练模型实现四元组目标函数最小化,调整多层感知机的参数,对专家as每个研究领域对应的特征提取向量进行优化,得到嵌入紧密社区关系的专家矩阵步骤7、基于领域向量构建高维向量索引,根据用户输入的查询文档返回专家查询结果,具体步骤如下:S7‑1,基于专家矩阵 构建高维向量索引图GV:

S7‑1‑1,根据专家矩阵 建立对应的聚簇集合 其

中 是专家矩阵 中领域特征向量的个数, 是专家矩阵 中专家as的第z个聚簇;

S7‑1‑2,对聚簇集合 中的领域特征向量进行聚类,得到聚类中心S7‑1‑3,建立虚点 并将该虚点加入聚簇集合 中;然后对聚簇集合 的每一维计算欧几里得范数距离,找到与虚点 距离最接近的g个领域特征向量,分别将这些领域特征向量与虚点 连边,得到高维向量索引图GV;

S7‑1‑4,依次针对新加入高维向量索引图GV的g个领域特征向量的每一维计算欧几里得范数距离,找到与每个文档聚簇最接近的g个领域特征向量,进行连边,将其作为新的节点加入高维向量索引图GV中;

S7‑1‑5,重复S7‑1‑4,直至聚簇集合 中的所有领域特征向量都被加入高维向量索引图GV中;

S7‑2接收到用户输入的查询文档q时,通过步骤6训练后的多层感知机模型进行编码,得到查询向量S7‑3,在S7‑1构建的高维向量索引图GV进行查询,获取Top‑n领域特征向量:S7‑3‑1,将虚点 作为初始的查询节点,对高维向量索引图GV中所有与查询节点存在临边关系的节点,计算其与查询向量 的欧几里得范数,作为距离值;将其中距离值最小的节点,作为下一步的查询节点S7‑3‑2,在查询节点 的基础上,重复步骤S7‑3‑1,直至与当前查询节点存在临边关系的所有节点与查询向量 的距离值均大于当前查询节点与查询向量间的距离值;

S7‑3‑3,从当前查询节点 开始,将所有与其存在临边关系的节点加入优先队列;再对新加入优先队列的节点,查询与其存在临边关系的节点,并加入优先队列;每次加入新节点时,都对优先队列中的所有节点按照与查询向量 的距离值从小到大进行排序,当优先队列中的前n个节点不再发生变化时,停止查找,并将前n个节点表示的领域特征向量对应的领域聚簇放入集合 中,作为Top‑n文档聚簇查询结果;

S7‑4,返回查询结果:

S7‑4‑1,一个专家的不同领域聚簇可能同时出现在集合 中,当专家as的领域聚簇在集合 中出现的次数越多、排名越靠前,且该专家在学术文档的作者排名中越靠前,则提高这个专家的排名R(as):其中,I(csh)代表文档聚簇csh对应的领域特征向量在集合中的排名,n是集合 中聚簇的总数;

S7‑4‑2,当大小为n的文档聚簇 中含有n′个相同专家的领域聚簇,且n′<n‑1,则经过步骤S7‑4‑1后仅得到n‑n′+1个专家的排名,因此需要从优先队列Q中再选择前n′‑1个不重复的节点对应领域聚簇加入集合 中,直至获得n个专家的排名;

S7‑4‑3,根据S7‑4‑2得到的专家及排名,返回检索结果。

2.如权利要求1所述基于社区查询和高维向量检索的科技专家检索方法,其特征在于:步骤2具体包括:

S2‑1,对学术文档集合P={p1,p2,...,pN}中的N篇学术文档通过科技词袋进行分词、去除停用词等处理,得到处理后学术文档科技词集合P′;

S2‑2,将学术文档的摘要或标题中的短语、词组作为语素,利用Elastic Search的文本匹配BM25算法,计算学术文档科技词集合P′中每两篇学术文档之间的文本相似度Score(pi,pt):其中,pim表示第i篇学术文档pi的第m个语素,n(pim)表示包含语素pim的文档数量,fi是语素pim在每一篇学术文档中出现的频率;pt表示第t篇学术文档,且i≠t,ptl是学术文档pt的长度,aυgpl为集合中所有学术文档的平均长度;

S2‑3,根据S2‑2的计算结果,为每一篇学术文档pi选择与其文本相似度高于阈值的学术文档py构建学术文档关系对M,并放入关系对集合M[pi]中,M[pi]={py|py∈M}。

3.如权利要求2所述基于社区查询和高维向量检索的科技专家检索方法,其特征在于:步骤3包括以下步骤:

S3‑1,将学术文档输入利用科技领域数据预训练后的词向量模型中进行编码,得到学术文档的向量表示集合 其中 表示第i篇学术文档pi的初始向量表示,表征学术文档pi的语义信息;

S3‑2,对于学术文档pi,将其关系对集合M[pi]中的学术文档作为训练正样本,表示为p+;

S3‑3,为了让负样本间尽可能不相似,选择负样本的方法为:S3‑3‑1、针对学术文档pi建立临时队列Qi,将关系对集合M[pi]中的所有学术文档加入该临时队列中;

S3‑3‑2、对于pq∈Qi,将pq的关系对集合M[pq]中的所有学术文档加入临时队列Qi中,然后对临时队列Qi中的文档去重;

S3‑3‑3、重复3次S3‑3‑2,将临时队列Qi中的学术文档视为与pi具有紧密相关或者次紧密相关学术文档;再对学术文档集合P生成子集 在子集 中通过随机选择的‑方法选用t篇学术文档作为pi的负样本,记为p;

+ ‑

S3‑4,将三元组

作为训练样本,输入神经网络中,优化模型参数,使损失函数尽可能小:其中c是超参数,δ(,)表示两个向量间的欧几里得范式距离;

S3‑5,调整词向量模型,得到二次表征的文档语义向量 实现文本相似度对文档语义信息的嵌入。

4.如权利要求1所述基于社区查询和高维向量检索的科技专家检索方法,其特征在于:所述步骤4具体包括以下步骤:

S4‑1,根据专家与学术文档之间的著作关系A‑P和学术文档之间的引用关系P‑P构建初始异构图;然后根据步骤2构建的学术文档关系对在初始异构图中嵌入节点M,每个节点M连接两篇构成学术文档关系对的学术文档P,表示学术文档间具有高相关性;从而得到学术异构图G(A,P,M);

S4‑2,通过元路径 和 对学术异构图G(A,P,

M)进行遍历,得到基于专家节点的同构图G0(A);其中 代表从一条专家节点出发,经过学术文档到达另一个专家节点的连边, 代表一条从专家节点出发,达到学术文档节点后,通过学术文档关系对节点M到达另一个学术文档节点,再到达另一个专家节点的连边;

S4‑3,基于专家节点的同构图G0(A),通过k‑core的查询返回专家的紧密社区。

5.如权利要求1或4所述基于社区查询和高维向量检索的科技专家检索方法,其特征在于:所述k‑core紧密社区要求一个社区内的任一专家至少与同属于该社区的其他专家间具有3条连边。

6.如权利要求5所述基于社区查询和高维向量检索的科技专家检索方法,其特征在于:步骤5具体包括以下步骤:

S5‑1,针对专家集合A={a1,a2,...,as}中的每一个专家as,从步骤3中的语义向量集合提取该专家as名下所有文档的语义向量,构成一个向量矩阵代表专家as第k篇学术文档的语义向量,k=1,2,...K,K为专家as名下学术文档的数量;

S5‑2,对向量矩阵 中的语义向量进行聚类,按照H个聚簇

将专家as的所有学术文档分为H个研究方向, csh表示专家as第h个研究方向的聚簇;

S5‑3,对于一个聚簇csh中的所有学术文档,根据专家as对每个学术文档的贡献程度,为其对应的向量提供不同的权重,从而将聚簇csh中的所有学术文档的语义向量池化为一个特征提取向量其中, 为聚簇csh中学术文档的数量,w(as,p)表示学术文档p的特征权值,反应了专家as对学术文档p的贡献程度;如果专家as对某一篇文档p有重要贡献,则表示文档p在的聚簇csh中更有影响力,需要尽可能提高学术文档p的特征权值:其中R(as)是学术文档p中专家as的排名,|Ap|代表学术文档p总共专家数量;

S5‑4,计算专家as每个研究领域对应的特征提取向量,得到专家矩阵:

7.如权利要求1所述基于社区查询和高维向量检索的科技专家检索方法,其特征在于:所述多层感知机为全连接神经网络,包括三层网络结构,每层网络都使用ReLU函数作为激活函数。