1.一种中文医疗命名实体识别方法,其特征在于,包括:
获取临床文本数据;将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;
其中,采用基于BERT的预训练模型,获得医疗文本的字符嵌入表示;利用基于注意力机制的语义树,获取医学概念嵌入特征向量;采用注意力机制将源语言单词翻译的多个目标语言单词嵌入到单词表示中,得到跨语言中文嵌入表示;
将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;
其中,基于多图的命名实体识别模型包括多图网络和LSTM‑CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM‑CRF模型,由LSTM‑CRF模型输出识别结果;
多元数据融合特征向量的获取具体过程为:采取特征迁移的方法,将高资源特征向低资源迁移;
在迁移过程中,采用双语对齐实现双语之间的投影,首先根据语料库生成中文源语言词典,然后通过机器翻译,将源语言词典翻译成英文目标语言,将两部分合并形成平行双语词典,获得的高资源特征,通过注意力机制进行融合,实现特征的迁移,采用双语词典作为中介,实现双语单词之间的投影;
假设给定双语词典其中,xi和yi表示词典中每一个词的词向量矩阵,通过注意力机制将目标语言中的单词表示成需要的嵌入表示;词向量表示为:其中l表示高资源单词的个数,yj表示每个高资源单词嵌入表达,att(yj)表示每个单词的注意:其中wc′表示低资源的单词嵌入表达,表示翻译的多个高资源单词嵌入表达。
2.如权利要求1所述的中文医疗命名实体识别方法,其特征在于,文本图中的节点有两类节点组成,分别是字符节点和词典节点,字符节点为句子中的每一个字符,词典节点由开始节点和结束节点组成。
3.如权利要求2所述的中文医疗命名实体识别方法,其特征在于,词典节点隶属于手术词典、疾病词典、解剖部位词典、药物词典、检验词典或基于临床文本实体类型的词典,这些词典根据临床文本中的实体类型得到。
4.如权利要求1所述的中文医疗命名实体识别方法,其特征在于,在所述LSTM‑CRF模型中,采用双向LSTM从全局上下文中学习字符的隐藏表示,采用CRF解码字符的标签。
5.一种中文医疗命名实体识别系统,其特征在于,包括:
数据获取模块,其用于获取临床文本数据;
融合特征模块,其用于将临床文本数据分别转换为医疗文本的字符嵌入表示、医学概念嵌入特征向量和跨语言中文嵌入表示并进行拼接,得到多元数据融合特征向量;
其中,采用基于BERT的预训练模型,获得医疗文本的字符嵌入表示;利用基于注意力机制的语义树,获取医学概念嵌入特征向量;用注意力机制将源语言单词翻译的多个目标语言单词嵌入到单词表示中,得到跨语言中文嵌入表示;
实体识别模块,其用于将多元数据融合特征向量输入至基于多图的命名实体识别模型中,识别出中文医疗命名实体类型;
其中,基于多图的命名实体识别模型包括多图网络和LSTM‑CRF模型,多图网络用于接收以多元数据融合特征向量为节点构成的文本图,输出节点的最终状态并传送至LSTM‑CRF模型,由LSTM‑CRF模型输出识别结果;
多元数据融合特征向量的获取具体过程为:采取特征迁移的方法,将高资源特征向低资源迁移;
在迁移过程中,采用双语对齐实现双语之间的投影,首先根据语料库生成中文源语言词典,然后通过机器翻译,将源语言词典翻译成英文目标语言,将两部分合并形成平行双语词典,获得的高资源特征,通过注意力机制进行融合,实现特征的迁移,采用双语词典作为中介,实现双语单词之间的投影;
其中,假设给定双语词典其中,xi和yi表示词典中每一个词的词向量矩阵,通过注意力机制将目标语言中的单词表示成需要的嵌入表示;词向量表示为:其中l表示高资源单词的个数,yj表示每个高资源单词嵌入表达,att(yj)表示每个单词的注意:其中wc′表示低资源的单词嵌入表达,表示翻译的多个高资源单词嵌入表达。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1‑4中任一项所述的中文医疗命名实体识别方法中的步骤。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1‑4中任一项所述的中文医疗命名实体识别方法中的步骤。