欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020113568032
申请人: 厦门理工学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种融合知识图谱与BERT的中文医学命名实体识别方法,其特征在于,包括:构建知识图谱的数据模型;其中,所述数据模型包括多个中文医学实体类,医学实体类之间形成有预定的实体关系;

在设定的医疗网站上爬取疾病简介页面中的相应内容,将所述内容存储在数据库中,并将所述数据库中的数据导出为json格式的json文件;

根据所述数据模型从所述json文件抽取相应的医学实体和实体关系,从而构建医疗知识图谱K;

识别输入的句子中包含的医学实体,并根据所述医疗知识图谱将每个医学实体填充成三元组ε=(wi,rk,wj),wi,wj均为实体名称,rk为实体间关系,ε∈K;

将相应的三元组注入到所述句子中,生成一个包含领域知识的句子树;

通过嵌入层中的软位置索引和可视层中的可视矩阵对所述句子树进行处理,从而将所述句子树中蕴含的领域知识加载到BERT模型中,进而所述BERT模型再根据任务需要在数据集上进行训练完成NER任务。

2.根据权利要求1所述的融合知识图谱与BERT的中文医学命名实体识别方法,其特征在于,

所述医学实体类包括:疾病名称、症状、饮食保健中的食品名称、常用药品、检查项目、就诊科室。

3.根据权利要求2所述的融合知识图谱与BERT的中文医学命名实体识别方法,其特征在于,

所述医学实体类之间的实体关系包括:(1)X has_symptom Y:患有疾病实体X会有症状实体Y;

(2)X do_eat Y:患有疾病实体X适宜吃食物实体Y;

(3)X recommend_drug Y:患有疾病实体X推荐药品实体Y;

(4)X need_check Y:患有疾病实体X需要做检查项目实体Y;

(5)X acompany_with Y:患有疾病实体X伴随着并发症实体Y;

(6)X belongs_to Y:实体X属于实体Y;

(7)X no_eat Y:患疾病实体X不宜吃食物实体Y。

4.根据权利要求1所述的融合知识图谱与BERT的中文医学命名实体识别方法,其特征在于,通过嵌入层中的软位置索引和可视层中的可视矩阵对所述句子树进行处理,从而将所述句子树中蕴含的领域知识加载到BERT模型中,进而所述BERT模型再根据任务需要在数据集上进行训练完成NER任务,具体包括:在嵌入层中将所述句子树平铺成包括多个字符的序列;

设置软位置索引使得所述序列的每个字符在其枝干上的位置顺序正确;

通过可视层中的可视矩阵对枝干中的字符进行区分,将句子树中的结构化信息保留,并且使得每个字的嵌入只与其同一个枝干中的上下文有关,从而将原本树结构的句子树引入到BERT模型中;

经过掩码转换器对序列进行语义建模。

5.根据权利要求4所述的融合知识图谱与BERT的中文医学命名实体识别方法,其特征在于,可视矩阵M的计算公式为:其中wi·wj表示字符wi,wj属于同一个枝干,相反 则表示字符wi,wj不在同一枝干上,i,j皆为硬位置索引。

6.根据权利要求4所述的融合知识图谱与BERT的中文医学命名实体识别方法,其特征在于,经过掩码转换器来对序列进行语义建模,具体包括:Q K V

将字符转化成对应的向量xi,然后分别与权重矩阵W ,W ,W 相乘,生成对应的查询向量qi、键向量ki和值向量vi,其中qi与ki的乘积为序列中当前处理字符与系列中每个字符的相关性得分;

将所述相关性得分除以键向量维度ki的开方,使训练过程中的梯度更加稳定;

通过softmax函数对结果进行归一化处理,再使用归一化后的分数与值向量vi相乘,以突出语义相关字符,而弱化相关性低的字符;所有经过加权后值向量的和即为当前处理字符的最终向量表示;

以上过程的计算公式为:

Q K V

其中Q=S·W,K=S·W,V=S·W,S为序列的向量矩阵;

掩码注意力模块会在计算字符间的相关性得分的时候添加一个由可视矩阵获取的分i

数Mij,对于一个输入向量h,它在掩码注意力模块中的计算过程可由以下公式计算:i+1 i+1 i+1 i Q i K i VQ ,K ,V =hW ,hW ,hWi+1 i+1 i+1

h =S V

若两个字在同一枝干,则Mij取值为0,按照自注意力机制中的打分方式进行计算;反之,i+1

若两个字不在同一枝干,则Mij取值为负无穷,那么S 的得分即为0,这也就意味着这两个字符对彼此的隐藏状态无影响。

7.一种融合知识图谱与BERT的中文医学命名实体识别装置,其特征在于,包括:构建模块,用于构建知识图谱的数据模型;其中,所述数据模型包括多个中文医学实体类,所述医学实体类之间形成有预定的实体关系;

爬取模块,用于在设定的医疗网站上爬取疾病简介页面中的相应内容,将所述内容存储在数据库中,并将所述数据库中的数据导出为json格式的json文件;

知识图谱模块,用于根据所述数据模型从所述json文件抽取相应的医学实体和实体关系,从而构建医疗知识图谱K;

填充模块,用于识别输入的句子中包含的医学实体,并根据所述医疗知识图谱将每个医学实体填充成三元组ε=(wi,rk,wj),wi,wj均为实体名称,rk为实体间关系,ε∈K;

注入模块,用于将相应的三元组注入到所述句子中,生成一个包含领域知识的句子树;

加载模块,用于通过嵌入层中的软位置索引和可视层中的可视矩阵对所述句子树进行处理,从而将所述句子树中蕴含的领域知识加载到BERT模型中,进而所述BERT模型再根据任务需要在数据集上进行训练完成NER任务。

8.根据权利要求7所述的融合知识图谱与BERT的中文医学命名实体识别装置,其特征在于,

所述医学实体类包括:疾病名称、症状、饮食保健中的食品名称、常用药品、检查项目、就诊科室。

9.根据权利要求8所述的融合知识图谱与BERT的中文医学命名实体识别装置,其特征在于,

所述实体类之间的实体关系包括:(1)X has_symptom Y:患有疾病实体X会有症状实体Y;

(2)X do_eat Y:患有疾病实体X适宜吃食物实体Y;

(3)X recommend_drug Y:患有疾病实体X推荐药品实体Y;

(4)X need_check Y:患有疾病实体X需要做检查项目实体Y;

(5)X acompany_with Y:患有疾病实体X伴随着并发症实体Y;

(6)X belongs_to Y:实体X属于实体Y;

(7)X no_eat Y:患疾病实体X不宜吃食物实体Y。

10.根据权利要求7所述的融合知识图谱与BERT的中文医学命名实体识别装置,其特征在于,所述加载模块具体用于:在嵌入层中将所述句子树平铺成包括多个字符的序列;

设置软位置索引使得所述序列的每个字符在其枝干上的位置顺序正确;

通过可视层中的可视矩阵对枝干中的字符进行区分,将句子树中的结构化信息保留,并且使得每个字的嵌入只与其同一个枝干中的上下文有关,从而将原本树结构的句子树引入到BERT模型中;

经过掩码转换器对句子进行语义建模。