1.一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,包括:获取待识别的医学嵌套命名实体,将该命名实体输入到医学文本嵌套命名实体识别模型中,得到识别结果;
对医学文本嵌套命名实体识别模型进行训练的过程包括:S1:获取原始医学文本数据和标签数据,根据文本数据的实体长度采用标签数据对医学文本数据进行标注;将标注的数据集划分为训练集和测试集;
S2:将训练集中的文本数据转化为对应的词向量,将词向量输入到基于注意力机制的BiLSTM模型中,得到一组包含前向信息和后向信息的向量;将该向量划分为正向文本信息和反向文本信息;
S3:将正向文本信息和反向文本信息分别输入到局部特征匹配模型中,提取文本的局部信息,并对正向信息和反向信息的匹配度进行评分;
S4:根据文本的局部信息、正向信息匹配度评分以及反向信息匹配度评分对实体长度进行预测;
S5:根据预测的实体长度计算模型的损失函数;
S6:将测试集中的数据输入到模型中,不断重复步骤S3~步骤S5,直到得到最大的实体长度,完成模型的训练。
2.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,采用标签数据对医学文本数据进行标注的过程包括:步骤1:对原始医学文本数据进行整理,得到医学文本数据的实体,每个实体由三元组表示;
步骤2:对二维标注矩阵进行初始化;
步骤3:根据每个实体的长度和在文本的起始位置在二维标注矩阵中获取对应的位置,并打算类别标签;
步骤4:将所有的文本进行信息标注。
3.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,采用基于自注意力机制的BiLSTM模型对词向量进行处理的过程包括:步骤1:将文本放入word2vec和fasttext进行训练,得到对应的词向量,将对应的词向量与Bert预训练的词向量进行结合,得到融合后的词向量,该向量为[word2vec;fasttext;
Bert];
步骤2:将得到的融合词向量输入到BiLSTM模型中,并将最后一层的输出拆分为正向信息与反向信息;
步骤3:分别对正向信息和反向信息做自注意力机制,对正向信息和反向信息做自注意力机制的过程包括:正向信息和反向信息均为三维向量为v,将v的二三维交换得到v′,并将v与v′相乘,得到经过自注意力机制后的向量。
4.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,采用局部特征匹配模型对文本信息进行处理的过程包括:步骤1:确定当前实体的长度item_len;
步骤2:采用卷积核大小为item_len的CNN分别对正向信息和反向信息进行局部整合,得到局部特征;
步骤3:对正向和反向信息的匹配度进行评分,得到头尾指针匹配度矩阵;
步骤4:根据头尾指针匹配度矩阵将基于注意力机制的BiLSTM模型输出的特征与局部特征进行融合,将融合后的特征进行分类,得到预测的实体长度;
步骤5:根据预测的实体长度和真实实体长度计算模型的损失值,并保留当前的损失值;
步骤6:将当前实体长度item_len,并返回步骤2,直到item_len大于最大的实体长度时,得到最长的实体。
5.根据权利要求4所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,采用CNN分别对正向信息和反向信息进行局部整合的过程包括:步骤21:对正向信息Vfor和反向信息Vrev进行零向量拼接操作,得到拼接后的正向信息Vfor1和拼接后的反向信息Vrev1;
步骤22:将拼接后的正向信息Vfor1和拼接后的反向信息Vrev1的二三维对调,得到变形后的正向信息Vfor2和反向信息Vrev2;
步骤23:使用Conv1d分别处理变形后的Vfor2和Vrev2,得到V′for和V′rev;
步骤24:将经过Conv1d处理后的V′for和V′rev调换第二维和第三维,得到局部特征。
6.根据权利要求4所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,对正向和反向信息的匹配度进行评分的过程包括:设定可学习参数α,β,match_score_matrix;其中,α和β参数分别为区分正反向量的重要程度;match_score_matrix为每个头尾指针的匹配度评分,采用头尾指针匹配度矩阵计算公式对每个头尾指针的匹配度评分进行计算,得到头尾指针匹配度矩阵output。
7.根据权利要求6所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,头尾指针匹配度矩阵计算公式为:output=α*V′for+β*V′rev+match_score_matrix其中,α表示正向向量的重要程度,β表示反向向量的重要程度,match_score_matrix表示每个头尾指针的匹配度评分,V′for表示正向信息的局部特征,V′rev表示反向信息的局部特征。
8.根据权利要求4所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,预测的实体长度的过程包括:步骤41:将头尾匹配度矩阵output与BiLSTM模型的输出特征相结合;
步骤42:将结合后的特征输入到soft Linear层,使得输入的两个语义特征融合;
步骤43:将融合后的特征输入到到classify Linear层,输出维度为标签类别数N的矩阵predict_matrix;
步骤44:根据矩阵predict_matrix得到实体长度。
9.根据权利要求8所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,根据矩阵predict_matrix得到实体长度包括:矩阵predict_matrix的每个位置predict_matrixij都代表当前字是否为实体开头,若predict_matrixij=0,则不为实体,若predict_matrixij=k,则ij位置为第k个类别的实体开头,并且长度为当该模块设定的长度item_len。
10.根据权利要求1所述的一种基于局部特征整合的医学嵌套命名实体识别方法,其特征在于,模型的损失函数为:
其中,M表示总样本数,N表示类别数,yic表示样本i对于类别c的期望输出,pic表示样本i对于类别c的实际输出。