1.一种基于引用预测的参考文献推荐方法,其特征在于:所述方法包括以下步骤:步骤1:收集论文,采集论文信息并进行筛选,保留有效数据;
步骤2:构造训练集,并进行特征表示,计算得到一组特征值;
步骤3:针对每个特征进行归一化后训练引用预测模型;
步骤4:基于预测模型,对给定论文进行引用预测和参考文献推荐。
2.根据权利要求1所述的一种基于引用预测的参考文献推荐方法,其特征在于:所述步骤1中,论文信息包括论文标题、论文摘要、作者信息、发表年份、发表刊物、参考文献和被引用量。
3.根据权利要求2所述的一种基于引用预测的参考文献推荐方法,其特征在于:所述作者信息包括作者姓名、研究机构、总发表论文数、总被引用次数、H指数和研究兴趣;所述筛选包括删去所述总被引用次数小于M1、或所述总发表论文数小于M2、或所述H指数小于M3的作者信息,并删除所述作者信息对应的论文信息;所述M1∈[1,10],M2∈[1,10],M3∈[1,3]。
4.根据权利要求2所述的一种基于引用预测的参考文献推荐方法,其特征在于:所述论文信息还包括所述发表刊物的H5指数。
5.根据权利要求1所述的一种基于引用预测的参考文献推荐方法,其特征在于:所述步骤2中,构造训练集包括以下步骤:步骤2.1:从步骤1的有效数据中提取论文引用关系,构成论文对集合P,P={xt},xt=(pi→pj),其中,xt=(pi→pj)表示论文pi引用论文pj,记所有的引用关系个数为n,涉及论文篇数为m;
步骤2.2:从论文对集合P的m篇论文中随机选取2篇论文,构成n'个无引用关系的论文对集合N,N={xh},xh=(pi/→pj),其中,n'=k*n,k∈[1,10]。
6.根据权利要求5所述的一种基于引用预测的参考文献推荐方法,其特征在于:对所述集合P和集合N中的每个论文对进行特征表示,将所述集合P和集合N中的每个论文对以40个特征的值表示为40维的向量;所述40个特征的值包括:第1特征的值为论文pi的所有作者的总发表论文数的算术平均值,第2特征的值为论文pj的所有作者的总发表论文数的算术平均值,第3特征的值为第1特征的值和第2特征的值之差;
第4特征的值为论文pi的所有作者的总被引用次数的算术平均值,第5特征的值为论文pj的所有作者的总被引用次数的算术平均值,第6特征的值为第4特征的值和第5特征的值之差;
第7特征的值为论文pi的所有作者的H指数的算术平均值,第8特征的值为论文pj的所有作者的H指数的算术平均值,第9特征的值为第7特征的值和第8特征的值之差;
第10特征的值为论文pi的所有作者的P指数混合均衡A指数的算术平均值,第11特征的值为论文pj的所有作者的P指数混合均衡A指数的算术平均值,第12特征的值为第10特征的值和第11特征的值之差;
第13特征的值为论文pi的所有作者的P指数混合非均衡A指数的算术平均值,第14特征的值为论文pj的所有作者的P指数混合非均衡A指数的算术平均值,第15特征的值为第13特征的值和第14特征的值之差;
第16特征的值为论文pi的所有作者的研究生涯的算术平均值,第17特征的值为论文pj的所有作者的研究生涯的算术平均值,第18特征的值为第16特征的值和第17特征的值之差;其中,研究生涯为作者最新发表的论文年份减去该作者最早发表的论文年份的值;
第19特征的值为论文pi的所有作者发表的第一篇论文年份的算术平均值,第20特征的值论文pj的所有作者发表的第一篇论文年份的算术平均值,第21特征的值为第19特征的值和第20特征的值之差;
第22特征的值为论文pi的所有作者发表的最近一篇论文年份的算术平均值,第23特征的值为论文pj的所有作者发表的最近一篇论文年份的算术平均值,第24特征的值为第22特征的值和第23特征的值之差;
第25特征的值为论文pi的所有作者的合作能力的算术平均值,第26特征的值为论文pj的所有作者的合作能力的算术平均值,第27特征的值为第25特征的值和第26特征的值之差;其中,合作能力 合作论文c为作者A和合作者c共同发表的论文数量;
第28特征的值为论文pi的发表时间,第29特征的值为论文pj的发表时间,第30特征的值为第28特征的值和第29特征的值之差;
第31特征的值为论文pi的发表刊物的H5指数,第32特征的值为论文pj的发表刊物的H5指数,第33特征的值为第31特征的值和第32特征的值之差;
第34特征的值为论文pi的和论文pj的论文标题的相似度,第35特征的值为论文pi的和论文pj的论文摘要的相似度,第36特征的值为论文pi的作者和论文pj的作者研究兴趣的相似度;其中,相似度是由论文标题或论文摘要或研究兴趣中的关键词转换为向量、以余弦公式得到任意2个关键词的相似度的总和;
第37特征的值为论文pi的和论文pj引用的相同参考文献数目,第38特征的值为论文pi的被引用量,第39特征的值为论文pj的被引用量,第40特征的值为第38特征的值和第39特征的值之差。
7.根据权利要求6所述的一种基于引用预测的参考文献推荐方法,其特征在于:所述步骤3中,将集合P和集合N合并作为训练集,其中,记集合P中论文对的标签为1,集合N中论文对的标签为0。
8.根据权利要求6所述的一种基于引用预测的参考文献推荐方法,其特征在于:所述步骤4包括以下步骤:步骤4.1:给定目标论文p,获得目标论文p的论文信息,所述论文信息中,参考文献的数量大于等于1;
步骤4.2:将数据库中除了输入的目标论文以外的所有参考文献均作为备选文献集C;
步骤4.3:将p和C中的每篇论文ci构成a个论文对(p,ci),计算每个论文对的40个特征向量值并将每个特征做归一化处理;
步骤4.4:将归一化后的特征向量输入预测模型,得到a个输出,作为预测到的p引用每篇论文ci的可能性的值。
9.根据权利要求8所述的一种基于引用预测的参考文献推荐方法,其特征在于:所述步骤4.4中,对这a个输出值降序排序,取可能性值前k'大的论文作为最后进行推荐的参考文献,k'∈[20,50]。
10.根据权利要求8所述的一种基于引用预测的参考文献推荐方法,其特征在于:所述步骤4.2备选文献集C的建立包括以下步骤:步骤4.2.1:记给定论文p的参考文献为R={r1,r2,…rn},初始化备选文献集C=R;
步骤4.2.2:对i从1到n,逐个考虑R中每篇论文的参考文献Ti,计算Ti中未包含于C的子集Ri',即Ri'=C\Ti,若Ri'不为空,则把它合并到备选文献集使得C=CURi';
步骤4.2.3:更新R=R1'U...URn';
步骤4.2.4:重复步骤4.2.2直到R为空,再无新的参考文献可以加入备选文献集C。