1.一种个性化的学术文献推荐方法,其特征在于,所述方法包括以下步骤:S1数据收集与清洗
收集以论文和作者为核心的论文数据,所述论文数据包括论文标题、论文摘要、作者姓名、发表年份、发表刊物和参考文献,清洗掉有明显的格式错误、数据缺失的数据;
其中,定义需要进行文献推荐的作者为目标用户,定义该用户过去发表的论文数据为该用户的历史信息,定义当用户在使用推荐方法时,提供的若干篇初始参考文献的论文数据为初始信息;
S2模型建立,过程如下:
S2.1构造训练集,过程如下:
S2.1.1从步骤S1中收集到的论文数据提取目标用户u的历史信息,根据论文引用关系构成以论文对为对象的集合,即:Pu={xu},每个对象 表示用户u发表的论文引用了作者v发表的论文 记所有的引用关系个数为nu,涉及的论文篇数为mu;
S2.1.2每次从Pu中的mu篇论文中随机选取两篇无引用关系的论文,共构成nu′个无引用关系的论文对,即:Nu={xu}, 表示作者u发表的论文 未引用作者w发表的论文 且需满足 的发表年份晚于 在具体实施过程中,nu′=knu,k取1到10;
S2.2特征计算
特征计算考虑论文的第一作者,若要考虑论文的所有作者,则认为u和v表示相应论文的所有作者,并首先对所有作者的相应特征值取算术平均数,再进行以上的两篇论文之间特征的求差运算;
对Pu和Nu中的每个论文对进行特征表示;
S3模型训练
将步骤S2.1中构建的数据集Pu和Nu合并,其中Pu中的对象标签记为1,Nu中的对象标签记为0,使用步骤S2.2中的方法计算合并后的nu+nu′个论文对的特征向量,并对数据进行以下归一化,即对于每个特征f,首先计算该特征的最大值max和最小值min,然后将该特征的所有值均按照如下公式进行变换:对得到数据采用带有L2正则项的逻辑斯蒂回归来训练引用预测模型,从而得到相应作者u的偏好模型;
S4学术文献推荐,过程如下:
S4.1建立备选文献集,要求每步选取的被引用的论文发表时间早于该论文的发表时间,过程如下:步骤4.1.1记给定论文px的参考文献为R={r1,r2,…rn},初始化备选文献集C=R;
步骤4.1.2对i从1到n,逐个考虑R中每篇论文的参考文献Ti,计算Ti中未包含于C的子集R′i,即R′i=C-Ti,若R′i不为空,则把它合并到备选文献集使得C=C∪R′i;
步骤4.1.3更新R=R′1∪…∪R′n;
步骤4.1.4:重复步骤4.1.2直到R为空,再无新的参考文献可以加入备选文献集。
步骤4.1.5若备选文献集C的数目|C|小于预先设定的M篇,则再挑选出M-|C|篇与px主题相似的论文加入备选集;
S4.2预测,过程如下:
S4.2.1给定目标用户u输入的论文 若数据库中存在该作者的历史数据以及具有足够的初始信息,即初始参考文献数目大于m,,则按照S4.1生成的备选文献集C,并将 和C中的每篇论文ci构成a个论文对 计算每个论文对的特征向量,特征计算如S2.2,然后执行S4.2.2,否则再重新执行S4.2.1;
S4.2.2把S4.2.1中得到的每个向量输入到S3中与目标论文 的作者相应的训练好的模型,得到a个输出,即预测到的 引用每篇论文ci的可能性的值。对这a个输出值降序排序,取可能性值前k′大的论文作为最后进行推荐的参考文献。
2.如权利要求1所述的一种个性化的学术文献推荐方法,其特征在于,所述步骤2.2中,选定计算如下20个特征值,并把Pu和Nu中的每个对象表示为20维的向量,如下:特征1:作者u和作者v的发表论文数目之差;
特征2:作者u和作者v的总被引量之差;
特征3:作者u和作者v的H指数之差;
其中,H指数是指科研人员至多有H篇论文分别被引用了至少H次,H指数是一个混合量化指标,可用于评估研究人员的学术产出数量与学术产出水平;
特征4:作者u和作者v的P指数混合均衡A指数之差;
特征5:作者u和作者v的P指数混合非均衡A指数之差;
其中,A指数描述了论文中不同作者的贡献程度,对于一篇n个合作者完成的论文来说,若不区分作者的贡献程度,则每个人的均衡A指数为1/n,若对作者的贡献程度进行区分,则第i个作者的非均衡A指数为: 记JIF为发表在某期刊上的所有论文的平均被引用次数,若某作者共发表K篇论文,则该作者的P指数为每篇论文获得的A指数乘上对应所发表的期刊的JIF系数,即: 其中,根据选取的Ak的含义可分为P指数混合均衡A指数和P指数混合非均衡A指数;
特征6:作者u和作者v的研究生涯长度之差;
其中,研究生涯的计算方法为:将作者最新发表的论文年份减去该作者最早发表的论文年份;
特征7:作者u和作者v的合作能力之差
其中,合作能力的计算方法为:
合作能力
其中,#合作论文c表示为作者A和合作者c共同发表的论文数量;
特征8:论文 和论文 的被引量之差;
特征9:论文 和论文 的参考文献数目之差;
特征10:论文 和论文 的Katz值之差;
记论文之间的引用关系构成的矩阵为Gij,则当论文pi和论文pj之间存在引用关系时,Gij=1;否则Gij=0,则Katz值定义为:其中,β为可调的阻尼因子,表示在计算过程中对引用关系网络中距离近的节点的优先考虑程度;
特征11:论文 和论文 的PageRank值之差;
记论文之间的引用关系构成的矩阵为Gij,将其按列进行归一化得到概率转移矩阵G′ij,记各个节点的PageRank值为An×1,初始状态的所有节点的概率相等, 则从第t轮迭代到第t+1的计算公式如下:
其中,α为权重因子,重复上式直到An×1收敛,此时的各个元素值即为相应的PageRank值,该值反映了节点在论文引用关系网络中的影响力大小;
特征12:论文 和论文 的出版刊物的H5指数之差;
其中,H5指数可以用来衡量期刊的持续影响力,其表示当前期刊在5年内所发表论文的H指数,如Google可Scholar,当前就是采用此指标来衡量期刊影响力;
特征13:发表论文 和论文 所在的研究机构的影响力之差;
特征14:论文 和论文 的题目相似性;
特征15:论文 和论文 的摘要相似性;
其中,特征14和特征15通过使用文本分析的方法,潜在语义索引、潜在狄利克雷分布得到题目/摘要在各个主题下的概率向量表示,再通过计算余弦相似度,即得到两篇论文之间的相似性;
特征16:作者u和作者v的研究兴趣的相似性;
其中,使用TF-IDF模型将作者的每个研究兴趣转成向量,再用余弦公式得到作者研究兴趣之间的相似性,研究兴趣在本发明的实施过程中,主要通过从作者的个人主页中提取得到;
并且,特征14-特征16的计算通过Python的gensim库的内置函数来完成;
特征17:论文 和论文 引用的相同参考文献数目;
特征18:论文 和论文 的作者是否相同;
特征19:论文 和论文 是否发表在同一个出版刊物上;
特征20:论文 和论文 的发表时间之差。
3.如权利要求1或2所述的一种个性化的学术文献推荐方法,其特征在于,所述方法还包括以下步骤:S5模型的冷启动问题
若数据库中不存在该用户的历史信息,或者当用户在使用本推荐方法时,未提供足够的初始信息,则称为冷启动问题;冷启动分为如下2种情况。
5.1)数据库中存在当前用户的历史信息,但当用户在使用本推荐方法时,未提供足够的初始信息,初始参考文献数目
5.2)数据库中不存在当前用户的历史信息,但当用户在使用本推荐方法时,提供足够的初始信息;
采用基于“近邻”的推荐方法对于以上不同冷启动问题的相应解决方法如下:当用户不存在初始信息时,首先提取出根据用户u的历史信息训练得到的模型,然后再从数据库中的所有论文中随机取出10倍于预设备选集数目M的论文,然后计算用户输入的论文 与这个10M篇论文之间的存在引用关系的概率,并取可能性前M的论文作为备选集;
当用户不存在历史信息时,采用如下两种解决方法:
5.2.1)记当前用户u输入的初始信息论文为: 记数据库中的所有论文为:W={w1,w2,…,wM},对于任意论文wj∈W,计算其与各个 的论文的特征之间的余弦相似度并相加作为论文wj与用户当前输入论文 之间的相似度,挑选相似度最大的k1篇论文,将其作为该用户的历史信息,用这些挑选出来的k1篇论文数据训练得到用户的偏好模型;
5.2.2)当5.2.1)中计算得到与当前用户的初始信息特征相近的k1篇论文后,取出这些论文对应的训练得到的用户偏好模型,并进行加权求和作为该用户的偏好模型,其中,将这些论文与输入论文 之间的相似度作为权重。
4.如权利要求1或2所述的一种个性化的学术文献推荐方法,其特征在于,所述步骤S1中,通过对指标设置阈值来筛选出更具有实验价值的数据:删去总被引量小于M1,或总发表论文数小于M2,或H指数小于M3的作者信息,并对相应论文数据进行删除,M1、M2和M3取1到10。