1.一种融合词典信息和注意力机制的命名实体识别方法,其特征在于,包括以下步骤:步骤(1)通过Bert字嵌入,并进行LSTM上下文融合得到字符特征及其序列;
步骤(2)通过将步骤(1)的字符特征序列通过处理得到关系特征矩阵G、距离矩阵Ed、区域网络矩阵Et和词汇网格矩阵Ew,并将四个矩阵的特征进行拼接得到网格关系特征,所述关系特征矩阵G的获取方法:利用CLN条件归一化对字符特征序列H进行处理,得到词对的关系特征矩阵其中Gij的计算公式为:
Gij为hi关于hj的特征表示,其中γij=Wαhi+bα,λij=Wβhi+bβ经过训练得到,μ和σ是hi的均值和标准差:所述距离矩阵Ed的获取方法:
计算各个字符特征之间的距离得到网格矩阵 对于输入的句子X,两个词(xi,xj)之间的距离表示为这两个词的绝对距离|i‑j|,再经过一个嵌入层,得到距离的分布式表示的网格矩阵所述区域网络矩阵 通过手动生成,设置一块N×N的矩阵,对于此矩阵的上三角区域,所有值设置为1,下三角区域则设置为2,再经过一个嵌入层,得到上下三角区域的分布式表示区域网络矩阵所述词汇网格矩阵Ew获取方法:
利用词典匹配出输入句子中的词语,将词典中的所有词构建一颗词典树,遍历输入句子X中的所有字,从词典树中匹配出所有可能的词语,包括连续词语的和非连续词语的,构建得到词嵌入关系矩阵步骤(3)将步骤(2)的网格关系特征通过全局注意力机制进行全局特征融合得到融合了全局信息的Word‑Pair特征,具体的,将步骤的网格关系特征C输入到Recurrent Criss‑cross attention模块,利用全局注意力机制,融合全局特征;
Criss‑cross Attention的实现方式还是基于注意力机制,首先,主干网络的输出C经过三个卷积模块的卷积运算,分别得到Q、K和V三个矩阵,其中 d'c设置为dc的八分之一,接着,Q和K通过Affinity操作计算生成注意力矩阵A;
对于Affinity操作:在Q中的每一个位置u,都可以在d'c轴得到一个向量,同时我们可以从K中,提取与位置u处于同一行、列的向量 那么第i个位置的参数就是Ωi,u,对于Affinity计算公式:
N×N×(N+N‑1)
生成的D经过Softmax激活后,得到A∈R ,对于生成的 我们同样对于每一个位置u,可以在dc轴上得到一个向量集将这个向量集与生成的A相乘,完成Aggregation操作,最后再加上原始输入C,输出生成的P'
P′u=∑Ai,uΦi,u+Pu
为了使每一个位置u可以与任何位置对应起来,通过两次计算Criss‑cross attention来完成,即Recurrent Criss‑cross attention,只需对P'再次计算Criss‑cross attention,输出P”,此时就有:P″u=∑Pi,uΦi,u+P′u
得到最终的Word‑Pair特征矩阵
步骤(4)利用步骤(3)中得到的Word‑Pair特征以及步骤(1)得到字符特征进行联合预测,得到Word‑Pair关系矩阵,具体实现过程如下:
对于Word‑Pair特征矩阵P,使用多层感知机预测每对词之间的关系,通过与用于关系分类的双仿射预测器合作来增强MLP预测器,同时采用这两个预测器来计算词对(xi,xj)的两个独立关系分布,并将它们组合为最终预测,其中Biaffine Predictor把步骤(1)的输出H进行关系分类预测,认为是一个残差连接,给定单词表示H,使用两个MLP分别计算主语(xi)和宾语(xj)单词表示si和oj,然后,使用双仿射分类器计算一对主语和宾语词(xi,xj)之间的关系分数y'ij:si=MLP1(hi)
sj=MLP2(hj)
其中U、W和b是可训练参数;
另外,将Word‑Pair特征矩阵P输入多层感知机计算一对主语和宾语词(xi,xj)之间的关系分数y″ij:y″ij=MLP(Qij)
最后把MLP层的关系分数和Biaffine关系分数进行相加,经过Softmax,取分数最高的标签作为联合预测的最后结果:yij=Softmax(y′ij+y″ij)
得到Word‑Pair关系矩阵;
最后利用标准的交叉熵作为损失函数训练模型,公式如下所示:其中, 为正确标签, 为预测为标签r的概率,R为预定义的所有关系标签集合;
步骤(5)对步骤(4)的Word‑Pair关系矩阵进行解码,得到最终的实体词及其类型。
2.根据权利要求1所述的一种融合词典信息和注意力机制的命名实体识别方法,其特征在于,所述步骤(1)具体实现过程如下:使用Bert将输入句子中的每个字符进行字嵌入转化,得到字符级别的嵌入表示;对于N输入句子X={x1,x2,…,xN}∈R ,用Bert对其每一个字符xi进行编码,再通过双向LSTM进行上下文编码,得到字符特征序列
3.根据权利要求1任意一项所述的一种融合词典信息和注意力机制的命名实体识别方法,其特征在于,将所述关系特征矩阵G、距离矩阵Ed、区域网络矩阵Et和词汇网格矩阵Ew的特征进行拼接得到网格关系特征
4.根据权利要求1所述的一种融合词典信息和注意力机制的命名实体识别方法,其特征在于,所述步骤(5)具体实现过程如下:所有单词对的关系R作为输入,解码的目标是找到所有的实体词索引序列及其对应的类别,构建了一个图,该图节点是单词,边是NNW关系,使用深度优先搜索算法找到从头词到尾词的所有路径,即对应实体的词索引序列,然后取该实体的头索引i和尾索引j,再从Word‑Pair网格[j,i]位置找到THW‑*关系,即该实体的类别。