知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种个性化的学术文献推荐方法

￥32200

专利号： 201810467316X

申请人：浙江工业大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2023-12-11

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种个性化的学术文献推荐方法，其特征在于，所述方法包括以下步骤：S1数据收集与清洗

收集以论文和作者为核心的论文数据，所述论文数据包括论文标题、论文摘要、作者姓名、发表年份、发表刊物和参考文献，清洗掉有明显的格式错误、数据缺失的数据；

其中，定义需要进行文献推荐的作者为目标用户，定义该用户过去发表的论文数据为该用户的历史信息，定义当用户在使用推荐方法时，提供的若干篇初始参考文献的论文数据为初始信息；

S2模型建立，过程如下：

S2.1构造训练集，过程如下：

S2.1.1从步骤S1中收集到的论文数据提取目标用户u的历史信息，根据论文引用关系构成以论文对为对象的集合，即：Pu＝{xu}，每个对象表示用户u发表的论文引用了作者v发表的论文记所有的引用关系个数为nu，涉及的论文篇数为mu；

S2.1.2每次从Pu中的mu篇论文中随机选取两篇无引用关系的论文，共构成nu′个无引用关系的论文对，即：Nu＝{xu}，表示作者u发表的论文未引用作者w发表的论文且需满足的发表年份晚于在具体实施过程中，nu′＝knu，k取1到10；

S2.2特征计算

特征计算考虑论文的第一作者，若要考虑论文的所有作者，则认为u和v表示相应论文的所有作者，并首先对所有作者的相应特征值取算术平均数，再进行以上的两篇论文之间特征的求差运算；

对Pu和Nu中的每个论文对进行特征表示；

S3模型训练

将步骤S2.1中构建的数据集Pu和Nu合并，其中Pu中的对象标签记为1，Nu中的对象标签记为0，使用步骤S2.2中的方法计算合并后的nu+nu′个论文对的特征向量，并对数据进行以下归一化，即对于每个特征f，首先计算该特征的最大值max和最小值min，然后将该特征的所有值均按照如下公式进行变换：对得到数据采用带有L2正则项的逻辑斯蒂回归来训练引用预测模型，从而得到相应作者u的偏好模型；

S4学术文献推荐，过程如下：

S4.1建立备选文献集，要求每步选取的被引用的论文发表时间早于该论文的发表时间，过程如下：步骤4.1.1记给定论文px的参考文献为R＝{r1,r2,…rn}，初始化备选文献集C＝R；

步骤4.1.2对i从1到n，逐个考虑R中每篇论文的参考文献Ti，计算Ti中未包含于C的子集R′i，即R′i＝C-Ti，若R′i不为空，则把它合并到备选文献集使得C＝C∪R′i；

步骤4.1.3更新R＝R′1∪…∪R′n；

步骤4.1.4：重复步骤4.1.2直到R为空，再无新的参考文献可以加入备选文献集。

步骤4.1.5若备选文献集C的数目|C|小于预先设定的M篇，则再挑选出M-|C|篇与px主题相似的论文加入备选集；

S4.2预测，过程如下：

S4.2.1给定目标用户u输入的论文若数据库中存在该作者的历史数据以及具有足够的初始信息，即初始参考文献数目大于m，，则按照S4.1生成的备选文献集C，并将和C中的每篇论文ci构成a个论文对计算每个论文对的特征向量，特征计算如S2.2，然后执行S4.2.2，否则再重新执行S4.2.1；

S4.2.2把S4.2.1中得到的每个向量输入到S3中与目标论文的作者相应的训练好的模型，得到a个输出，即预测到的引用每篇论文ci的可能性的值。对这a个输出值降序排序，取可能性值前k′大的论文作为最后进行推荐的参考文献。

2.如权利要求1所述的一种个性化的学术文献推荐方法，其特征在于，所述步骤2.2中，选定计算如下20个特征值，并把Pu和Nu中的每个对象表示为20维的向量，如下：特征1：作者u和作者v的发表论文数目之差；

特征2：作者u和作者v的总被引量之差；

特征3：作者u和作者v的H指数之差；

其中，H指数是指科研人员至多有H篇论文分别被引用了至少H次，H指数是一个混合量化指标，可用于评估研究人员的学术产出数量与学术产出水平；

特征4：作者u和作者v的P指数混合均衡A指数之差；

特征5：作者u和作者v的P指数混合非均衡A指数之差；

其中，A指数描述了论文中不同作者的贡献程度，对于一篇n个合作者完成的论文来说，若不区分作者的贡献程度，则每个人的均衡A指数为1/n，若对作者的贡献程度进行区分，则第i个作者的非均衡A指数为：记JIF为发表在某期刊上的所有论文的平均被引用次数，若某作者共发表K篇论文，则该作者的P指数为每篇论文获得的A指数乘上对应所发表的期刊的JIF系数，即：其中，根据选取的Ak的含义可分为P指数混合均衡A指数和P指数混合非均衡A指数；

特征6：作者u和作者v的研究生涯长度之差；

其中，研究生涯的计算方法为：将作者最新发表的论文年份减去该作者最早发表的论文年份；

特征7：作者u和作者v的合作能力之差

其中，合作能力的计算方法为：

合作能力

其中，#合作论文c表示为作者A和合作者c共同发表的论文数量；

特征8：论文和论文的被引量之差；

特征9：论文和论文的参考文献数目之差；

特征10：论文和论文的Katz值之差；

记论文之间的引用关系构成的矩阵为Gij，则当论文pi和论文pj之间存在引用关系时，Gij＝1；否则Gij＝0，则Katz值定义为：其中，β为可调的阻尼因子，表示在计算过程中对引用关系网络中距离近的节点的优先考虑程度；

特征11：论文和论文的PageRank值之差；

记论文之间的引用关系构成的矩阵为Gij，将其按列进行归一化得到概率转移矩阵G′ij，记各个节点的PageRank值为An×1，初始状态的所有节点的概率相等，则从第t轮迭代到第t+1的计算公式如下：

其中，α为权重因子，重复上式直到An×1收敛，此时的各个元素值即为相应的PageRank值，该值反映了节点在论文引用关系网络中的影响力大小；

特征12：论文和论文的出版刊物的H5指数之差；

其中，H5指数可以用来衡量期刊的持续影响力，其表示当前期刊在5年内所发表论文的H指数，如Google可Scholar，当前就是采用此指标来衡量期刊影响力；

特征13：发表论文和论文所在的研究机构的影响力之差；

特征14：论文和论文的题目相似性；

特征15：论文和论文的摘要相似性；

其中，特征14和特征15通过使用文本分析的方法，潜在语义索引、潜在狄利克雷分布得到题目/摘要在各个主题下的概率向量表示，再通过计算余弦相似度，即得到两篇论文之间的相似性；

特征16：作者u和作者v的研究兴趣的相似性；

其中，使用TF-IDF模型将作者的每个研究兴趣转成向量，再用余弦公式得到作者研究兴趣之间的相似性，研究兴趣在本发明的实施过程中，主要通过从作者的个人主页中提取得到；

并且，特征14-特征16的计算通过Python的gensim库的内置函数来完成；

特征17：论文和论文引用的相同参考文献数目；

特征18：论文和论文的作者是否相同；

特征19：论文和论文是否发表在同一个出版刊物上；

特征20：论文和论文的发表时间之差。

3.如权利要求1或2所述的一种个性化的学术文献推荐方法，其特征在于，所述方法还包括以下步骤：S5模型的冷启动问题

若数据库中不存在该用户的历史信息，或者当用户在使用本推荐方法时，未提供足够的初始信息，则称为冷启动问题；冷启动分为如下2种情况。

5.1)数据库中存在当前用户的历史信息，但当用户在使用本推荐方法时，未提供足够的初始信息，初始参考文献数目

5.2)数据库中不存在当前用户的历史信息，但当用户在使用本推荐方法时，提供足够的初始信息；

采用基于“近邻”的推荐方法对于以上不同冷启动问题的相应解决方法如下：当用户不存在初始信息时，首先提取出根据用户u的历史信息训练得到的模型，然后再从数据库中的所有论文中随机取出10倍于预设备选集数目M的论文，然后计算用户输入的论文与这个10M篇论文之间的存在引用关系的概率，并取可能性前M的论文作为备选集；

当用户不存在历史信息时，采用如下两种解决方法：

5.2.1)记当前用户u输入的初始信息论文为：记数据库中的所有论文为：W＝{w1,w2,…,wM}，对于任意论文wj∈W，计算其与各个的论文的特征之间的余弦相似度并相加作为论文wj与用户当前输入论文之间的相似度，挑选相似度最大的k1篇论文，将其作为该用户的历史信息，用这些挑选出来的k1篇论文数据训练得到用户的偏好模型；

5.2.2)当5.2.1)中计算得到与当前用户的初始信息特征相近的k1篇论文后，取出这些论文对应的训练得到的用户偏好模型，并进行加权求和作为该用户的偏好模型，其中，将这些论文与输入论文之间的相似度作为权重。

4.如权利要求1或2所述的一种个性化的学术文献推荐方法，其特征在于，所述步骤S1中，通过对指标设置阈值来筛选出更具有实验价值的数据：删去总被引量小于M1，或总发表论文数小于M2，或H指数小于M3的作者信息，并对相应论文数据进行删除，M1、M2和M3取1到10。