1.基于融合注意力的医疗命名实体识别建模方法,其特征在于,包括:步骤1:将医疗文本语句s进行中文分词并索引:将医疗文本语句s与词典进行匹配得到词语序列w1,w2,...,wn,wi为词语序列中第i个词语,i=1,2,...,n;第i个词语的第k个字符以t(i,k)进行索引,k为字符在词语中所处位置;
所述医疗文本语句s=c1,c2,...,cm,cj为医疗文本语句s的第j个字符,j=1,2,...,m;
索引以b作为开始且以e作为结束的词语通过 进行表示,其中b表示词语开始字符的索引,e表示词语结束字符的索引;
步骤2:利用前向LSTM和反向LSTM通过拼接得到Bi‑LSTM模型;
所述前向LSTM的 为:
c
其中, 和 分别为输入门、遗忘门和输出门; 为新的候选细胞信息; 和b分别为要学习的模型权重参数和偏置项;σ为Sigmoid函数;⊙为哈达玛乘积;
c
为字符cj的嵌入表示, e表示字符嵌入查询表;
为字符cj对应的隐藏状态, 为字符cj对应的字符细胞状态; 为前一字符cj‑1对应的隐藏状态, 为前一字符cj‑1对应的字符细胞状态;
引入词语信息后的字符细胞状态 由以下步骤得到:其中, 和 为 和 经过归一化之后得到;
为引入的附加门结构,用于控制所有以索引为e的字符结尾的词语细胞 对尾字l
符细胞 的贡献, 和b 分别为要学习的模型权重参数和偏置项;
词语细胞状态 由以下步骤得到:
w
其中, 为输入门, 为遗忘门; 为新的候选词语细胞信息; 和b分别为要学习的模型权重参数和偏置项; 为词语首字符对应的隐藏状态;
w
为词语 的嵌入表示, e 表示由步骤1所述词典转化得到的词嵌入查询表;
反向LSTM与前向LSTM类同;
将上述方法分别用于医疗文本语句s,得到 和 两组向量,然后将两组向量进行拼接,s中每个字符对应的最终隐藏向量 计算公式如下:步骤3:通过注意力机制给步骤2的输出分配与其对应的权重αtj,特征向量 以及与其对应的权重αtj进行加权求和后得到新的输出向量ct,具体为:特征向量 对应的权重αtj由以下步骤得到:其中,etj用于度量第j个源端字符与第t个目标端字符的匹配程度;st‑1为第t时刻隐藏层状态; Wa和Ua为权重矩阵;
步骤4:通过条件随机场CRF对步骤3输出的特征向量c={c1,c2,...,cm}进行解码,得到输入医疗文本语句s的医疗实体类型的标注,具体为:P(y|c)=CRF(c,y);
其中,y为输入医疗文本语句s所有可能的输出标签序列,P(y|c)为可能的输出标签序列y的条件概率;
预测时,通过动态规划的维特比算法(Viterbi Algorithm)在输入序列上找到得分最*高的标注序列,得到输入医疗文本语句s的医疗实体类型的标注y,*
y=arg max P(y|c)。