欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021109273201
申请人: 西南交通大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于融合注意力的医疗命名实体识别建模方法,其特征在于,包括:步骤1:将医疗文本语句s进行中文分词并索引:将医疗文本语句s与词典进行匹配得到词语序列w1,w2,...,wn,wi为词语序列中第i个词语,i=1,2,...,n;第i个词语的第k个字符以t(i,k)进行索引,k为字符在词语中所处位置;

所述医疗文本语句s=c1,c2,...,cm,cj为医疗文本语句s的第j个字符,j=1,2,...,m;

索引以b作为开始且以e作为结束的词语通过 进行表示,其中b表示词语开始字符的索引,e表示词语结束字符的索引;

步骤2:利用前向LSTM和反向LSTM通过拼接得到Bi‑LSTM模型;

所述前向LSTM的 为:

c

其中, 和 分别为输入门、遗忘门和输出门; 为新的候选细胞信息; 和b分别为要学习的模型权重参数和偏置项;σ为Sigmoid函数;⊙为哈达玛乘积;

c

为字符cj的嵌入表示, e表示字符嵌入查询表;

为字符cj对应的隐藏状态, 为字符cj对应的字符细胞状态; 为前一字符cj‑1对应的隐藏状态, 为前一字符cj‑1对应的字符细胞状态;

引入词语信息后的字符细胞状态 由以下步骤得到:其中, 和 为 和 经过归一化之后得到;

为引入的附加门结构,用于控制所有以索引为e的字符结尾的词语细胞 对尾字l

符细胞 的贡献, 和b 分别为要学习的模型权重参数和偏置项;

词语细胞状态 由以下步骤得到:

w

其中, 为输入门, 为遗忘门; 为新的候选词语细胞信息; 和b分别为要学习的模型权重参数和偏置项; 为词语首字符对应的隐藏状态;

w

为词语 的嵌入表示, e 表示由步骤1所述词典转化得到的词嵌入查询表;

反向LSTM与前向LSTM类同;

将上述方法分别用于医疗文本语句s,得到 和 两组向量,然后将两组向量进行拼接,s中每个字符对应的最终隐藏向量 计算公式如下:步骤3:通过注意力机制给步骤2的输出分配与其对应的权重αtj,特征向量 以及与其对应的权重αtj进行加权求和后得到新的输出向量ct,具体为:特征向量 对应的权重αtj由以下步骤得到:其中,etj用于度量第j个源端字符与第t个目标端字符的匹配程度;st‑1为第t时刻隐藏层状态; Wa和Ua为权重矩阵;

步骤4:通过条件随机场CRF对步骤3输出的特征向量c={c1,c2,...,cm}进行解码,得到输入医疗文本语句s的医疗实体类型的标注,具体为:P(y|c)=CRF(c,y);

其中,y为输入医疗文本语句s所有可能的输出标签序列,P(y|c)为可能的输出标签序列y的条件概率;

预测时,通过动态规划的维特比算法(Viterbi Algorithm)在输入序列上找到得分最*高的标注序列,得到输入医疗文本语句s的医疗实体类型的标注y,*

y=arg max P(y|c)。