欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022107257069
申请人: 毕开龙
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-07-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.多特征融合的英文科技文献关键词提取方法,其特征在于,将关键词提取过程转化为对关键词主题序列标示过程,模型训练以单词为输入单元,采用深度网络学习模型进行有监督的序列标示;

第一,将关键词提取转化为序列识别任务处理,采用基于二分类的P/N序列标示方法,将关键词提取任务作为对单词二分类的序列标示,解决预测结果中碎片化关键词问题;

第二,通过解析标示结果中的关键词集合,融合特征设置四个关键特征用于模型的训练;一是基于专业性关键词和专有名词对于它所存在文本的意义,采用语料库中标示结果文件中标示出的关键词以及从Web上抓取的文献关键词共同组成了先验科技词典特征(STD);二是基于科技文献关键词是名词或者动词概率极大,采用特征词性特征(FPOS);三是基于词的TF‑IDF值对于词在语料库中区分分档的重要性,修改词的TF‑IDF赋能特征值作为特征;四是基于解析关键词的书写格式中全大写的词语是关键词,30%的首字母大写的词语是关键词,文本采用书写格式(C)作为第四个特征;

第三,将词、特征标示以及结果标示转化为数学表示,首先采用开源训练完毕的词向量模型GoogleNews300模型,将文本中的词转化为300维的向量特征表示,再针对词的特征格式,自定义表示方式将特征转化为向量特征表示,最后,用自定义的方式,将结果标示转化为向量特征表示;

第四,对于文本的特征处理,先采用nltk工具包对文本进行多特征分词,然后采用文本对应的结果标示文件,对文本的多特征分词结果进行结果标示,再然后对文本的多特征分词结果的四个特征依次进行标示,最后将词本身、以及词的特征标示和词的结果标示依次都转化为向量特征表示;

第五,采用词向量和特征向量聚合作为深度网络学习模型的训练输入,结果向量作为目标结果也传输到深度网络学习模型中进行模型训练,采用深度网络学习模型实现关键词提取;

第六,对模型的提取结果实时评估修正,采用Precision、Recall和F1‑score三个标准综合评估系统的预测效果,基于三种评估标准传统的计算方法对结果进行评估,对模型的提取结果实时评估修正。

2.根据权利要求1所述多特征融合的英文科技文献关键词提取方法,其特征在于,基于深度网络学习的关键词提取方法:首先,将标示方式改为P/N方式,即采用P表示单词是关键词,采用N表示单词不是关键词,关键词提取模型从一个多类别模型转化为一个二分类模型,把相邻的连续的被标示为P的单词序列聚合起来,作为关键词提取出来;

基于深度网络学习的关键词提取方法步骤概括如下:

步骤一:对语料中的文本进行多特征分词操作;

步骤二:对多特征分词的结果进行特征提取;

步骤三:根据语料的标示结果文件对文本进行P/N结果标示;

步骤四:将词、特征都表示为向量形式拼接起来作为输入,将P/N标示的结果表示为向量作为期望结果,传输给深度网络学习模型进行训练;

步骤五:采用训练完毕的模型针对语料进行关键词提取;

步骤六:根据模型预测的结果实时评估模型的性能。

3.根据权利要求1所述多特征融合的英文科技文献关键词提取方法,其特征在于,融合特征设置:选取融合先验科技词典(STD),特征词性(FPOS),TF‑IDF赋能特征值、书写主题格式(C)四个特征;

(一)先验科技词典

将文档中存在的领域性和专业性很强的词标示出来,并将标示结果作为特征进行模型训练,关键词提取模型训练采用词典法,搜集已获取的关键词,去重后组成一个先验关键词词典,在文本处理时,采用词典中的词逐一的去匹配文本内容,将文本中存在于词典中的词的所有组成的单词都标为类别P,不存在词典中的词标为另一类别N,并将词典的标示结果作为一个训练模型时的输入特征;

先验科技词典来源分为两大部分:

第一部分:根据ScienceIE任务提供的语料库中的标示结果文件中的关键词标示结果,搜集并去除重复的或独立出来无意义的关键词后获得的5620个关键词;

第二部分:采用外部资源,语料库的来源是ScienceDirect的文档库,采用爬虫从ScienceDirect上抓取15000篇科技文献,去除重复的关键词之后总共获取46569个关键词;

将两部分合并在共同,去除重复的关键词再过滤掉一些无意义的词语后,最终得到50000个关键词组成的关键词词典;

(二)特征词性

整合Stanford NLP工具包的Python库nltk进行特征词性标示,文档的关键词由名词、动词和形容词这几类词语组成的短语,本申请在对文本中词的特征词性标示时,将特征词性进行简明再分类;

将特征词性分为四个大的类别:N、V、J、O;N包括单复数名词以及单复数专有名词,V包括动词的基本形式、现在多特征分词、过去多特征分词、动名词、过去式以及第三人称和非第三人称单数形式,J包括形容词以及其比较级和最高级形式,O表示去除以上三种形式包含的特征词性之外的所有特征词性,最后对这四个类别分别加权赋值,和词向量共同作为输入用于模型的训练;

(三)TF‑IDF赋能特征值

本申请只将词语的TF‑IDF赋能特征值作为一个特征值,再通过加入其它特征来弥补它的不足,将计算每个单词的TF‑IDF赋能特征值,并将TF‑IDF赋能特征值作为该词的一个特征训练深度网络学习模型,对英文科技文献的关键词提取;

(四)书写格式

将语料中的词语根据书写格式分为UA、UP和L三类,并将其所属类别作为特征,然后对这三个类别分别加权赋值,并带入深度网络学习模型进行训练。

4.根据权利要求1所述多特征融合的英文科技文献关键词提取方法,其特征在于,词的向量特征表示:采用训练好的GoogleNews300模型对语料中的词进行向量特征表示,本申请采用采用指定向量特征表示的方法:W=(1.0,1.0,1.0...1.0)300    式1

S=(0.0,0.0,0.0...0.0)300    式2

采用由1.0组成的300维向量W来表示模型GoogleNews300中不存在对应向量的词,针对其余在模型中不存在对应向量的非词,如数字或各类符号,则用有0.0组成的300维向量S来表示。

5.根据权利要求1所述多特征融合的英文科技文献关键词提取方法,其特征在于,特征的向量特征表示:在将词转化为向量特征表示的情形下,词的四个特征用向量来表示,具体表示如下:

1)先验科技词典:词典的标示结果被分为P、N两类,针对这两类分别表示为P=(0,1)、N=(1,0);

2)特征词性:特征词性特征有四类N、V、J、O,分别将其表示为四个4维的向量:N=(1,0,

0,0)、V=(0,1,0,0)、J=(0,0,0,1)、O=(0,0,0,1);

3)TF‑IDF赋能特征值:TF‑IDF赋能特征值特征本身就是一个数值,将TF‑IDF赋能特征值特征表示为由它的数值构成的一维向量;

4)书写格式:书写格式特征分为UA、UP、L三类,分别表示为3个3维向量UA=(1,0,0)、UP=(0,1,0)、L=(0,0,1)。

6.根据权利要求1所述多特征融合的英文科技文献关键词提取方法,其特征在于,文本前置处理:步骤1:读取文档中的内容并对内容文本进行多特征分词处理,结果存为Words;

步骤2:根据文档对应的标示结果文件,对多特征分词结果Words进行P/N方式的结果标示,标示的结果存为Labels;

步骤3:选取四个特征:先验科技词典(STD)、特征词性(FPOS)、TF‑IDF赋能特征值以及书写格式(C),逐一的对多特征分词的结果Words进行特征标示,对应的结果分别存为wd、wp、wt和wc;

步骤4:将多特征分词结果Words,和它对应的标示结果Labels以及它的特征标示wd、wp、wt、wc转化成对应的向量特征表示,并将词向量和特征向量拼接起来;

标示结果反馈:

第1步:读取文档的文本Text,再对分本进行多特征分词的操作将文档切分成Words时,同时保存文档中单词所对应的位置信息Indices;

第2步:读取该篇文档对应的结果标示文件内容,将文件中的标示结果也就是文档中所有的关键词对应的位置信息包括起始位置和结束位置读取出来,按照起始位置升序的方式排列,保存为kpIndices;

第3步:根据kpIndices的内容,遍历Indices集合,若单词的在文档中的位置不在kpIndices保存的位置范围中,则说明该单词不属于关键词主题序列,根据P/N标示方式标示为N,而起始位置和结束位置都在kpIndices所包含的范围中的单词则标示为P,遍历完毕后,将标示结果集存为Labels。

7.根据权利要求1所述多特征融合的英文科技文献关键词提取方法,其特征在于,在进行模型训练之前,将单词的每个特征都标示出来:第一步:提取词的先验科技词典特征(STD),遍历已经构建好的关键词词典中的关键词,采用这些关键词去匹配文档的原始文本,若关键词存在与文本中,则将关键词在文本中匹配到的位置标记出来,并将其在多特征分词结果Words中对应的词都标示为P,表示该词属于关键词主题序列,遍历结束后,将Words中未被标示为P的词,都标示为N,表示该词不属于关键词,标示完毕后,结果保存为wd;

第二步:提取词的特征词性特征(FPOS),对词的特征词性标示基于自然语言处理工具包nltk,遍历多特征分词结果Words集合中的单词,对每一个单词,都是用nltk的特征词性标示工具进行标示操作,并根据特征的向量特征表示的分类方式,将标示的特征词性分为N、V、J、O四个大类,遍历完成后,将标示结果存为wp;

第三步:提取词的TF‑IDF赋能特征值特征,词的TF‑IDF赋能特征值值是由词在当前文档频率TF和词在整个文档集中的逆文档频率相乘得到,在计算词的TF‑IDF赋能特征值值时,同时读取整个语料库中的所有文本,将每个文本都多特征分词并去除重复词以及标点符号后保存成一个包含词以及该词在文档中出现次数的词表,在对某个文档中的词进行TF‑IDF赋能特征值值计算时,先遍历当前文档内容所对应的词表,针对其中的每一个词,根据它在文档中出现的次数计算它的词频TF,再遍历整个语料库内容对应的词表,计算当前词在整个语料库中出现的次数,并以此计算当前词在整个语料库中的逆文档频率IDF,最终由TF乘以IDF获取词的TF‑IDF赋能特征值值,遍历分档的多特征分词后对应的Words集合,计算词的TF‑IDF赋能特征值值,并将结果存为wt;

第四步:提取词的书写格式特征(C),将语料中的词语根据书写格式分为三类:UA、UP、L,遍历文档的多特征分词后对应的Words集合,针对每个词,判断它的书写格式,全词大写的词标记为UA,只有首字母大写的词标示为UP,其余的词标记为L,遍历完成后将标示结果存为wc。

8.根据权利要求1所述多特征融合的英文科技文献关键词提取方法,其特征在于,向量特征转化:在完成语料的多特征分词,结果标示以及特征提取工作之后,在进行深度网络学习模型训练之前,将词本身Words,特征的标示结果wd、wp、wt、wc以及词的实际结果Labels转化为向量形式:第1)步:对于词本身,遍历Words集合,采用训练好的词向量模型GoogleNews300将其中的每个词都表示为一个300维的向量,对于词向量模型中不存在对应向量特征表示的词,根据该词是否是单词分别表示为300维的每一维值都是1.0的向量或300维每一维值都为0.0的向量,将转化后的结果存为WX;

第2)步:将特征的标示结果wd、wp、w、wc也转化为向量形式;

第3)步:对于词典特征(STD)的标示结果wd,词典的标示结果被分为P、N两类,针对这两类标示结果,将标示Р表示为向量(0,1),标示N表示为向量(1,0),转换后的结果存为DX;

对于特征词性特征(FPOS)的标示结果wp,特征词性标示有四类N、V、J、O,分别将其表示为四个4维的向量:标记N表示为向量(1,0,0,0)、标记V表示为向量(0,1,0,0)、标记J表示为向量(0,0,0,1)、标记O表示为向量(0,0,0,1),转化后的结果存为PX;

对于词的TF‑IDF赋能特征值特征的标示结果wt,将TF‑IDF赋能特征值特征表示为由它的数值构成的一维向量,并将结果存为TX;

对于词的书写格式特征(C)的标示结果wc,书写格式特征分为UA、UP、L三类,分别将其转化为3个3维向量,将标记UA转化为向量(1,0,0),将标记UP转化为向量(0,1,0),最后将标记L转化为向量(0,0,1),转化后的结果存为CX;

第4)步:对于多特征分词结果Words的实际结果标示集Labels,若标示为P,则表示为向量(0,1),标示为N,则表示成向量(1,0),转化后的结果存为Y;

完成词、特征和结果的向量特征表示后,按照式3将词向量与特征向量连接起来作为模型训练的输入X:X=WX+DX+PX+TX+CX                       式3将实际结果对应的向量特征表示Y作为期望结果,传输给本申请的关键词提取模型进行训练。

9.根据权利要求1所述多特征融合的英文科技文献关键词提取方法,其特征在于,模型评估标准:采用P精确率、R召回率以及F1三个评估标准来评估;

F1是P和R的加权调和平均值,参见式4:

F1综合准确率和召回率的表现,只有当P和R都高时,F1才会高,只有准确率和召回率都高时,表现才理想,所以F1作为系统性能的表现;

对于模型预测的结果,将其分为四类:

第一类,TP:正确预测的关键词;

第二类,FP:错误预测的关键词;

第三类,TN:正确预测的非关键词;

第四类,FN:错误预测的非关键词;

根据这四种结果分类方式,得出P、R的计算方式:

计算得出P、R和F1的结果。

10.根据权利要求1所述多特征融合的英文科技文献关键词提取方法,其特征在于,模型评估方法:将预测结果中的关键词主题序列识别出来,再与实际结果中的关键词作比对来计算P、R和F1,分为两个步骤:

1)识别预测结果中的关键词:连续的预测结果标记为P的词序列看作一个关键词,识别关键词采用遍历预测结果,将连续的P序列聚合成关键词提取出来,得预测结果中的关键词总数Np;

2)识别正确预测的关键词:通过对比预测结果提取出来的关键词和实际结果中的关键词,得到预测结果中完全正确预测的关键词,即预测结果中的关键词和对应实际结果中的关键词主题序列完全一致,计其个数为Nt,同时根据语料库中的结果标示文件得到实际结果中的关键词总数Na;

根据上述的计算方式和计算结果,得出本申请P、R和F1的计算方式:

基于P、R和F1对模型进行评估。