1.基于深度学习的科研学术新闻关键字匹配推荐方法,其特征在于,具体包括以下步骤:
步骤1,网站管理员输入新闻数据和学术、科研论文数据;
步骤2,新闻数据集成到新闻数据库,学术、科研论文数据集成到论文库;
步骤3,新闻分为图片新闻和文字新闻。图片新闻通过构建BOW模型进行图片识别,从而提取出图片中的文字和人物信息。对于文字新闻采用对新闻分词处理和词汇概率统计手段相结合的手段对文字新闻进行处理,最终集合两者的数据形成新闻关键词库;
步骤4,提取论文库的论文中自带的关键词数据形成关键词集合,接着是对于论文的标题、正文等采用sentence2vec的C-bow方法进行语义识别。最终集合两者的数据形成论文关键词库;
步骤5,对新闻关键词库和论文关键词库进行整合,构建word2vec模型并且对模型进行训练,旨在挖掘关键词之间的关系。最终达到的效果是:输入任一关键词,能够根据输入的关键词对关键词库进行遍历,从而得到一个与关键词相关性由大到小的数据集,这个数据集将是我们进行推荐工作的基准;
步骤6,当用户浏览某一新闻时,该条新闻的关键词就作为输入的数据,针对该关键词遍历论文关键词库,从而得到一个与关键词相关性递减的数据集;
步骤7,根据得到的关键字数据集查询论文库,找寻若干篇与输入新闻相干的论文形成推荐列表进行论文推荐;
步骤8,定期重复3、4、5,因为两个数据库不断增大,需要对模型进行重复训练,以提高推荐数据集的准确率。
2.根据权利要求1所述的基于深度学习的科研学术新闻关键字匹配推荐方法。其特征在于,步骤3中,科研新闻的处理和提取关键词步骤分为两大类:图片新闻和文字新闻,具体步骤如下:步骤3.1,对于科研新闻中的图片新闻来说,识别其主要通过构建BOW模型和码本来分解图像并识别。具体有两种途径,第一种是提取图片中的文字,进行分词处理形成关键词词库并与论文关键词库进行对比;第二种是是对于图片中的人物进行人脸识别并与已录入的科研工作者库相对比。对于图片科研新闻中出现过的人物,如果论文库中有与该人物重合的作者所著论文则针对此新闻推荐该作者的论文,以发表时间最近优先为推荐顺序标准;
步骤3.2,对于科研新闻中的文字新闻,采用分词方法与统计手段相结合的方式进行处理。传统的分词方法对于新闻内容的识别没有达到比较准确,所以本发明采用统计手段相结合,统计新闻标题和正文中出现词汇的次数,除去一些所有新闻所共由的词汇,从而将出现频率最高的词汇作为该新闻的关键词。此外,考虑到新闻标题中出现词汇比较能概括新闻大意,所以新闻中关键词的权重要比正文中出现的词汇要高。
3.根据权利要求1所述的基于深度学习的科研学术新闻关键字匹配推荐方法。其特征在于,步骤4中对于论文的题目和摘要部分采用centence2vec的C-bow方法进行处理,在C-bow方法里,训练目标是给定一个word的context,预测word的概率。相比于word2vec的c-bow模型,区别点有:训练过程中新增了paragraph id,即训练语料中每个句子都有一个唯一的id。
paragraph id和普通的word一样,也是先映射成一个向量,即paragraph vector。
paragraph vector与word vector的维数虽一样,但是来自于两个不同的向量空间。在之后的计算里,paragraph vector和word vector累加或者连接起来,作为输出层softmax的输入。在一个句子或者文档的训练过程中,paragraph id保持不变,共享着同一个paragraph vector。相当于每次在预测单词的概率时,都利用了整个句子的语义。
在预测阶段,给待预测的句子新分配一个paragraph id。词向量和输出层softmax的参数保持训练阶段得到的参数不变,重新利用梯度下降训练待预测的句子。待收敛后,即得到待预测句子的paragraph vector。先利用中文sentence语料训练句或词向量,然后通过计算句向量之间的cosine值,得到最相似的句子或词;这样得到准确率搞得结果。
4.根据权利要求1所述的基于深度学习的科研学术新闻关键字匹配推荐方法,其特征在于,步骤5中对于新闻和论文关键字词库的训练方法,具体步骤如下:步骤5.1,导入word2vec深度学习模型;
步骤5.2,对输入门、输出门和遗忘门的各项参数进行初始化,从而保持模型的准确;
步骤5.3,对输出层的输出标准进行制定,输出门词语只输出关联度大于0.8的词汇;
步骤5.4,外部输入被预处理过的高质量关键词语料,此处的预处理指经过步骤2处理过的语料;
步骤5.5,生成推荐优先级并依据其进行排序,输入训练结果。
5.根据权利要求1所述的基于深度学习的科研学术新闻关键字匹配推荐方法,其特征在于,所述步骤7中的推荐策略具体采用了科研新闻与学术论文相互推荐的策略,通过建立两个关键字词库并通过深度学习的方法找寻关键词之间的相关联性,从而找到一种纯粹针对科研新闻和学术论文的关联性匹配推荐方法。