欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020101568281
申请人: 西南交通大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于知识图谱的电子病历ICD自动编码方法,其特征在于,包括以下步骤:S1、根据电子病历得到电子病历字符序列X,将电子病历字符序列X中的字符映射为d维的字符嵌入矩阵W;

S2、根据字符嵌入矩阵W,采用向量表示方法将电子病历字符序列X向量化,得到输入特*征向量X;

*

S3、采用CNN网络从输入特征向量X中学习到文本语义信息,得到上层序列向量H;

S4、构建临床医学知识图谱,采用图嵌入表示方法,根据临床医学知识图谱和ICD编码信息得到图嵌入表示Yg;

S5、采用注意力机制,根据上层序列向量H和图嵌入表示Yg计算得到高级别序列向量V;

S6、对高级别序列向量V进行标签判定,得到预测标签,使用正确标签和预测标签的二元交叉熵作为目标函数,完成电子病历ICD自动编码。

2.根据权利要求1所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S1的具体方法为:令n为电子病历字符表中不同的字符数量,对电子病历字符表中的每一个字符随机初始化d维向量,得到字符嵌入矩阵W:其中,每一个行向量代表一个唯一字符。

3.根据权利要求2所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S2的具体方法为:将电子病历字符序列X中每个字符均转换成低维实值向量,且均由字符嵌入矩阵W中属n×d于R 的一个向量编码表示,其中d是字符向量的维度,n是固定大小的输入字符表;

电子病历字符序列X经向量表示后,获得输入特征向量 其中k表示序列字符的数量。

4.根据权利要求3所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S3的具体方法为:* *

采用CNN网络通过卷积操作(*)从输入特征向量X 中学习到文本语义信息特征H ,计算公式为:* *

H=g(Wc*xi:i+f‑1+bc) i∈[1,2,…,n‑f+1]         (2)其中*代表卷积操作,Wc为需要学习的权重矩阵,f表示卷积核的大小,bc表示偏置向量;

*

对文本语义信息特征H进行maxpooling操作,扩大句子的感受野,继而得到上层序列向量H={h1,h2,h3,...,hk}。

5.根据权利要求4所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S4中,临床医学知识图谱的构建方法是:在医学资源文库中进行数据爬取,将爬取到的数据进行预处理后,利用医学实体与预处理后的数据之间的关系组成RDF三元组,所有的三元组即为最终的临床医学知识图谱。

6.根据权利要求5所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述医学资源文库包括疾病百科和CMKD;所述医学实体包括疾病、症状、手术、药品、部位和科室。

7.根据权利要求5所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S4的具体方法为:S41、对临床医学知识图谱中实体节点随机初始化后的向量N进行优化,得到实体节点的表示;

S42、令1阶相似度衡量相邻的两个实体节点之间相似性,令2阶相似度衡量两个实体节点的邻居集合的相似程度;采用1阶相似度对相邻实体节点进行优化,使临床医学知识图谱中相邻的两个实体节点对应的嵌入向量在隐藏空间接近,计算公式如下:其中,ym与yj分别代表临床医学知识图谱中不重复的两个实体节点;nd代表临床医学知识图谱中总的实体节点数量;

采用2阶相似度对具有相似结构的实体节点进行优化,使用实体节点的邻接矩阵进行输入,使得结构相似实体节点具有相似的表示向量,sj包含了实体节点yj的邻居节点信息,计算公式如下:根据公式(5)得到图嵌入表示的总优化目标:

L=L1st+αL2st+βLreg                (5)其中,α和β代表权重参数,Lreg代表正则化项;

S43、根据公式(3)、(4)、(5)计算得到临床医学知识图谱嵌入矩阵G,通过完全匹配或者部分匹配方式与ICD编码信息互联,得到图嵌入表示 其中,l表示ICD标签个数,dg表示图嵌入维度。

8.根据权利要求7所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S5的具体方法为:根据上层序列向量H={h1,h2,h3,...,hk}和图嵌入表示 获得高级别序列向量V:

T

A=SoftMax(HWgYg)           (6)V=AH                 (7)其中,Wg表示模型注意力层的权重矩阵,矩阵A中的每一个向量t表示第t个字符所对应的权重向量,SoftMax(x)=exp(xt)/∑texp(xt);

经过注意力操作后得到高级别序列向量

9.根据权利要求8所述基于知识图谱的电子病历ICD自动编码方法,其特征在于,所述步骤S6的具体方法为:构建l个节点组成的全连接层,从高级别序列向量V中获取sigmoid分类器,l对应ICD标签的数量,通过sigmoid分类器获得每个ICD编码的预测概率,并根据公式(8)获得预测标签其中,σ(x)=1/exp(‑x),Wo表示全连接层的权重参数;

使用正确标签和预测标签的二元交叉熵作为目标函数:其中,θ代表所有训练参数,Yr∈{0,1}表示第r个ICD编码的真实结果值; 是预测为第r个ICD编码的概率。