欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017103920305
申请人: 中国矿业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于神经网络与注意力机制的情报关系提取方法,其特征在于,包括以下步骤:步骤1)构建用户字典,神经网络系统已有初始的用户字典;

步骤2)训练词向量,从有关的数据库中提取文本资料,利用步骤1)得到的用户字典训练词向量库,将文本资料中的文本词汇映射成数值化的向量数据;

步骤3)构造训练集,从历史情报数据库中提取情报对,使用步骤2)中得到的词向量库将每对情报转化为情报关系三元组训练数据<情报1,情报2,关系>;

步骤4)语料预处理,先利用步骤1)得到的用户字典对步骤3)得到的训练数据进行语料预处理,即分词和命名体识别;分词和命名体识别使用现有的自动化工具实现,预处理最终结果是将每条情报转化为行为词向量维度、列为语句长度的情报词语矩阵,并标注其中命名体位置,情报两两一组;

步骤5)神经网络模型训练,将步骤4)得到的矩阵加入神经网络进行训练,得到关系抽取神经网络模型;其中神经网络的训练方法,包括以下步骤:步骤5-1)将情报词语矩阵输入双向长短时记忆网络Bi-LSTM单元提取综合语境的信息,分别将正序语句和倒序语句输入两个长短时记忆网络LSTM单元;在计算本时刻时,迭代地考虑上时刻的作用;LSTM单元的隐层计算及特征提取的组合表达式如下:it=σ(Wxixt+Whiht-1+Wcict-1+bi)

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

gt=tanh(Wxcxt+Whcht-1+Wccct-1+bc)ct=itgt+ftct-1

ot=σ(Wxoxt+Whoht-1+Wcoct+bo)

ht=ot·tanh(ct)

式中:xt表示t时刻步骤4)中得到的情报词语矩阵,也是神经网络的输入矩阵;

it表示t时刻输入门的输出结果;

ft表示t时刻遗忘门的输出结果;

gt表示t时刻输入整合的输出结果;

ct、ct-1分别表示t时刻和t-1时刻记忆流状态;

ot表示t时刻输出门的输出结果;

ht、ht-1分别表示t时刻和t-1时刻隐层信息,即神经网络提取的特征输出;

σ()表示sigmoid激活函数,tanh()表示双曲正切激活函数;

Wxi、Whi、Wci、Wxf、Whf、Wcf、Wxc、Whc、Wcc、Wxo、Who、Wco表示待训练的权值参数,其角标前者表示相乘的输入量,后者表示所属的计算部分;

bi、bf、bc、bo表示待训练的偏置参数,其角标表示所属的计算部分;

这里待训练的所有权值参数和偏置参数都是先随机初始化,然后训练过程中自动修正,最后会随神经网络的训练得到最终的值;

步骤5-2)加权拼接正序语句和倒序语句的两个长短时记忆网络LSTM单元输出作为神经网络的最终输出;

ofinal=Wfwhfw+Wbwhbw

式中,hfw表示处理正序语句的LSTM网络的输出,Wfw表示其对应的待训练的权值;

hbw表示处理倒序语句的LSTM网络的输出,Wbw表示其对应的待训练的权值;

ofinal表示神经网络的最终输出;

这里待训练的权值Wfw、Wbw也是先随机初始化,然后训练过程中自动修正,最后会随神经网络的训练得到最终的值;

步骤5-3)依据命名体对应位置的神经网络输出来计算情报整句话的注意力分配,并按照分配组合神经网络的整句输出,其公式如下:α=softmax(tanh(E)·Wa·Ofinal)

r=α·Ofinal

式中,α为注意力分配矩阵,r为情报语句经过针对性整合的输出;E为循环神经网络在命名体位置上的输出,使用固定窗口的模式,选取前K重要的命名体拼接成命名体矩阵;

Ofinal为神经网络的最终输出,形如[o1,o2,o3...on],其中o1,o2,o3...on为神经网络对应节点的输出,n为情报的词语数量;

Wa为待训练的权值矩阵,softmax()为softmax分类器函数,tanh()为双曲正切激活函数;这里待训练的权值Wa也是先随机初始化,然后训练过程中自动修正,最后会随神经网络的训练得到最终的值;

步骤5-4)对于两条情报语句经过针对性整合的输出r,拼接后输入全连接层,最后使用softmax分类器进行关系分类,对得到的预测结果使用梯度下降法训练权值;

步骤6)情报获取,输入两条一组的文字情报,一个批次可以有多组,其中文字情报为一段中心明确的文字,若为新情报,则可以选择扩充步骤1)中得到的用户字典;

步骤7)文本预处理,通过步骤4)中训练好的分词工具、步骤2)得到的词向量库和步骤

4)中使用的命名体识别工具,将步骤6)中原始的整句的文字信息转化为情报数值矩阵;其中每行是每个词的向量表示,一个矩阵即表示一条情报,同时标注其中命名体的位置;

步骤8)关系抽取,将步骤7)处理好的两两一组的情报矩阵对输入步骤5)训练好的关系抽取神经网络模型,进行自动化的关系抽取,最终得到每组情报的关系类别;

步骤9)增量式更新,判断步骤8)得到的每组情报的关系类别正误,若判断正确,则结合步骤6)中获取的情报和相应的关系类别进行可视化展示,若判断错误,则可以选择将正确判断的情报关系三元组训练数据加入步骤3)中的训练集,重复步骤4)与步骤5),重新训练修正神经网络模型;

使用双向循环神经网络、结合命名实体对情报中各词的注意力分配,在情报的词向量表示中提取出特征信息,使用softmax分类器对提取的特征信息进一步分类,从而完成情报的关系提取任务;使用双向长短时记忆网络有效地考虑完整语境信息,使用命名实体的注意力权重可依据叙事中心词自动分配情报中每个词的重要程度。

2.根据权利要求1所述的一种基于神经网络与注意力机制的情报关系提取方法,其特征在于:步骤1)中可选方案为构建专业领域用户词典,专业领域用户词典指在特定领域的专有名词、且脱离本领域较难识别的词语;其他普遍的词汇可以自动识别;所述专有词汇可从历史情报数据库中选取,若从历史情报数据库中提取的词汇为专有词汇,用户只需将已知的专有词汇加入神经网络系统的用户字典即可。

3.根据权利要求1所述的一种基于神经网络与注意力机制的情报关系提取方法,其特征在于:训练集的构造是从历史情报数据库中提取足量的情报,构建情报关系三元组训练数据,要求5000条以上;具体首先确定关系类别,关系类别包括前因与后果、主题与详述、位置联系、时间联系,按照不同关系,将情报对分成形如<情报1,情报2,关系>的三元组。

4.根据权利要求1所述的一种基于神经网络与注意力机制的情报关系提取方法,其特征在于:从与领域有关的数据库中提取文本资料,结合网络百科、新闻广播的文本语料,通过Google工具包word2vector训练词向量库,将文本词汇映射成数值化的向量数据,向量数据包含了原语义信息,以此完成自然语言到数值表示的转化。

5.根据权利要求1所述的一种基于神经网络与注意力机制的情报关系提取方法,其特征在于:中文在语义上以词为单位,对于整句的输入,需要先进行分词处理;在分词过程中,加入专业领域用户词典。

6.根据权利要求1所述的一种基于神经网络与注意力机制的情报关系提取方法,其特征在于:获取情报步骤中情报应为一小段100词以内的中心明确的文字;关系抽取针对的是二元关系,即处理对象为一对情报,所以长短时记忆网络LSTM单元的输入应为两条一组的文字情报。

7.根据权利要求1所述的一种基于神经网络与注意力机制的情报关系提取方法,其特征在于:分词和命名体识别使用现有的自动化工具实现,分别为nlpir和stanford-ner。

8.根据权利要求7所述的一种基于神经网络与注意力机制的情报关系提取方法,其特征在于:在自动化工具识别分词和命名体时使用专业领域的用户词典。