1.一种结合标签构建与社区关系规避的专家推荐方法,其特征在于,包括以下步骤:步骤1:对科技领域的专利数据库和论文数据库进行采集,提取出论文数据库中的作者以及专利数据库中的发明人,形成专家列表;然后对专家的属性信息补全,根据属性信息完成专家属性抽取和领域标签抽取;根据专家之间的关系形成科技领域的专家库;最后根据专家发表的论文数、论文影响因子、论文被引数、H指数和专利数维度进行建模,计算专家在相关领域的影响力;
步骤2:根据科技评审资料提取相关的科技领域,然后根据专家的领域标签过滤匹配度高的专家集合S1;同时提取科技评审资料中相关的申请人信息,作为需要直接规避的专家;
然后根据社区发现算法以及专家之间的复杂关系,得到专家的社区关系;根据需要直接规避的专家及其关系比较紧密的专家社区关系,得到需要规避的专家集合S2;然后将推荐的专家集合S1中过滤掉需要规避的专家集合S2得到初步推荐的专家,即S=S1-S2;
步骤3:得到初步推荐专家后按照影响力与其他限制条件进行二次过滤,并按照相关领域影响力排序得到最终的专家推荐列表。
2.根据权利要求1所述的专家推荐方法,其特征在于,需要规避的专家集合S2的算法执行过程:(1)给定网络G(V,E),其中V为点集,E为边集,将网络G中的每条边初始一个社区,即P0=(C1,C2,…,C|E|);
(2)找出最相似的属于不同社区的两条边eik和ejk,并将这两条边所属的社区进行合并;
其中相似度按照如下公式计算:
其中n+(i)={x|d(i,j)≤1},d(i,j)表示节点i和x之间的最小距离;即n+(i)包含了节点i本身和i的邻居节点;
(3)重复执行(2)直到网络中所有的边被分到一个社区中;在此过程中,将每次迭代的结果存储在一个树状图中;
(4)在(3)得到的树状图中找出划分密度最大的那层社区划分结果作为最终社区结构;
其中划分密度D定义为:
其中mc和nc分别表示社区c包含边的条数和节点的个数;
(5)将单链接层次聚类的结果转化为节点的集合,形成最终的专家的社区关系结构。
(6)根据需要直接规避的专家及其关系比较紧密的专家社区关系,得到需要规避的专家集合S2 。
3.根据权利要求1所述的专家推荐方法,其特征在于,步骤1中专家领域标签抽取过程如下:(1)根据领域标签内容,对采集论文的分类进行匹配,并对采集的论文信息进行检索,根据匹配的论文数据建立领域标签论文集合,形成全部论文领域标签数据集,作为训练样本;
(2)使用FastText算法对数据进行训练,形成全领域标签分类模型;
(3)基于上述步骤训练好的模型,对于专家的论文进行预测打分,形成专家的领域标签,一个专家可以命中多个标签,涉及多个不同的领域。
4.根据权利要求1所述的专家推荐方法,其特征在于,步骤1中构建专家库是指完成科技领域专家库的构建;需要根据专家的论文专利合作关系、同事关系和校友关系复杂的人际关系,对专家关系进行连接;其中专家之间共同发表论文或者专利则形成合作关系;专家所属机构相同则形成同事关系;专家的教育背景存在时间与地点吻合度较高的则形成校友关系。
5.根据权利要求1所述的专家推荐方法,其特征在于,步骤1中还包括专家评估:根据专家发表的论文数、论文影响因子、论文被引数、H指数和专利数维度进行建模,计算专家在相关领域的影响力;其中过程如下:(1)对专家数据清洗与转换,对论文数、论文影响因子、论文被引数、H指数和专利数维度缺失数据进行处理;处理过程包括对整体数据进行归一化处理;
(2)建立数学模型,计算专家领域影响力;其中X表示专家在某领域的论文数、论文影响因子、论文被引数、H指数和专利数维度向量集,T表示不同维度的加权集,则数学模型Y=TX计算得到某领域的影响力;其中:数学模型Y=t1*x1=t2*x2+...+tn*xn。
6.根据权利要求1所述的专家推荐方法,其特征在于,步骤3中获得最终专家推荐列表的具体步骤如下:(1)得到初步推荐专家后,根据专家影响力将相关领域影响力较弱的专家进行过滤;同时也可以根据用户指定的条件进行二次过滤;
(2)在(1)中根据专家评估模型计算出了专家在相关领域的影响力,此时根据领域影响力进行排序,将影响力高的排序到推荐专家列表前列;
(3)分析之后得到最终的专家推荐列表;在合理规避有合作关系、同事关系、项目组关系关系转件后,推荐高水平、高影响力和高责任心的专家。