1.一种基于修剪图谱聚类的学术团队划分方法,其特征在于,所述方法包括以下步骤:
1)构建学术知识图谱
融合多数据源的学者的基本信息、学术论文、纵向项目、横向项目、专利、科研奖励作为知识库,抽取出其中的实体、关系和属性,经过共指消解,构建出面向学者的学术知识图谱;
2)提取学者合作关系
从学术知识图谱中提取学者间的合作关系网络,即形如(学者,合作关系,学者)的三元组,其中合作关系是一个量化的关系权重,初始值设置为合作次数;
3)计算节点的相似度
基于局部链接的方法计算节点相似度,局部链接指节点间直接相链的关系,节点相似度计算公式为:其中,S(i,j)表示节点i与节点j之间的相似度值,St(i)表示节点i与节点i的邻居节点组成的集合,St(j)表示节点j与节点j的邻居节点组成的集合,We表示与节点Ve直接相链的所有边的权重之和,计算出节点i与节点j共同邻居节点的权重之和的倒数 ,将节点i的邻居节点和节点j的邻居节点所带来的影响也考虑其中,使计算得到的节点相似度值更为精确;
根据计算得到的节点相似度对关系权重进行更新,节点相似度能够有效衡量一个学术团队内各成员之间在不同领域合作关系的紧密程度;
4)计算网络模块度
根据步骤3)中计算得到的节点相似度,进一步计算网络的模块度,模块度计算公式为:其中,∑in表示网络中边的相似度之和,∑tot表示与网络中所有节点相链的相似度之和,TS表示网络中所有节点相似度之和;
5)学术团队划分
初始时,每个节点各自隶属一个科研团队,按照节点的序号进行遍历,步骤如下:(5.1):计算节点加入其邻居节点的模块度增益,模块度增益计算公式为:其中,Sin[i]表示群i中边的权重之和,tot[C]表示C中所有节点与其直接相链的点的相似度的和,Si[node]表示节点node与其所有直接相链的点的相似度之和,TS表示网络中所有节点相似度之和;
(5.2):选取节点加入其邻居节点最大的模块度增益,将该邻居作为加入的候选节点;
(5.3):设置一个模块度增益阈值K,如果上述公式计算得到的△Q值超过该阈值,再判断该节点与所要加入的邻居节点所在团队中的任意节点是否有直接合作关系,如果有则加入,否则放弃加入;
6)学术团队聚合
根据步骤5)所得到的学术团队初步划分结果,基于修剪的图聚类方法进行学术团队聚合,目的是将具有内聚性的团队进行融合,步骤如下:(6.1):利用公式(2)对当前网络的模块度进行计算,将计算所得的值设置为Q1(6.2):将每个学术团队看作一个超节点,边则表示为不同团队中相链的节点之间的相似度之和,利用公式(1)计算团队相似度,记为S(i,j),其中i,j表示团队i和团队j两个团队;
(6.3):根据步骤(6.2)计算得到的S(i,j),进一步计算各个团队加入其邻居团队所带来的模块度增益△Q,选择△Q的最大值,用△Qmax表示,如果△Qmax超过阈值K,则选择△Qmax对应的学术团队进行聚合;
(6.4):跳转到步骤(6.1),不断进行更高层次的团队聚合,直到整个网络的模块度Q1不发生改变,迭代结束;
7)学术团队筛选
考虑到数据稀疏的特性,对步骤6)得到的学术团队进行筛选,去掉不符合团队要求的团队,步骤如下:(7.1):对团队内各成员之间在不同领域合作次数进行求和计算,并将所得结果记为M;
(7.2):设置一个合作次数阈值L,如果M≧L,则该团队为最终得到的学术团队;否则,该团队不符合学术团队的最低要求;
(7.3):跳转到步骤(7.1),直到当前团队为学术团队集合中的最后一个,迭代结束;
经过上述步骤从学术知识图谱中划分得到学术团队。