1.一种基于先验医学知识的疾病风险预测方法,其特征在于:包括以下步骤:S1、以向量形式输入患者p的EHR记录数据;
S2、使用基于卷积神经网络的预测模型来获得预测概率,从而获得目标函数;
S3、整合先验医学知识融入步骤S2的预测模型,引入一个期望分布值并设置约束特征,通过正则化方法得到损失函数;
S4、通过损失函数计算新的目标函数,并获得风险预测模型的最优参数;通过最优参数预测患者P的疾病风险。
2.如权利要求1所述的基于先验医学知识的疾病风险预测方法,其特征在于:所述步骤S1中第p位患者的EHR记录数据为 将xt嵌入到访问级中 则:vt=Wυxt+bυ
其中, 和 是需要学习的参数,k是潜在表示的大小。
3.如权利要求2所述的基于先验医学知识的疾病风险预测方法,其特征在于:所述步骤S2中获得预测概率向量包括以下步骤:S21、设l表示时间窗口的大小,vt:t+l-1表示从vt到vt+l-1的l次的连接,滤波器 应用于l次访问的窗口来产生一个新的特征 使用ReLU激活如下:ft=ReLU(Wfvt:t+l-1+bf)ReLU(f)=max(f,0)
其中,bf是偏置项;
则生成图像特征:
S21、应用一个全连接的softmax层用以产生预测概率,如下:
4.如权利要求3所述的基于先验医学知识的疾病风险预测方法,其特征在于:所述步骤S2中预测概率 由后验分布P(yp|X(p);θ)表示,其中yp是真实值,真实值yp和预测概率 之间的交叉熵被用于计算损失,则风险预测的目标函数为交叉熵的平均值:
5.如权利要求4所述的基于先验医学知识的疾病风险预测方法,其特征在于:所述步骤S3中得到损失函数包括以下步骤:S31、设Q是后验信息约束的集合,则:
其中,φ(X(p),yp)是约束特征的集合,b是约束特征期望的界限;
S32、设q(yp)为患者p的期望分布,则损失函数为:其中,α是一个超参数,用于平衡预测模型的平衡,KL(·||·)是用于测量预测模型中期望分布q(yp)与后验分布P(yp|X(p);θ)之间差异的Kullback-Leibler散度。
6.如权利要求5所述的基于先验医学知识的疾病风险预测方法,其特征在于:所述步骤S4中过损失函数计算新的目标函数的公式为:其中,后验分布
Γ·φ(X(p),yp;w)=γe⊙φe+γa⊙φa+γu⊙φu+γd⊙φd+γg⊙φg+γh⊙φh,Γ是不同约束特征类别的可学习置信矩阵, 为参数集;
是真实值yp和后验分布 之间的交叉熵平均值。
7.如权利要求6所述的基于先验医学知识的疾病风险预测方法,其特征在于:所述种族特征向量φe=[1,1]或[0,0],γe为约束种族特征的置信度向量;所述年龄特征向量γa为约束年龄特征的置信度向量;所述潜在疾病特征向量γu为约束潜在疾病特征的置信度向量;所述疾病持续时间特征向量 γd为约束疾病持续时间特征的置信度向量;所述遗传病特征向量φg=[1,1]或[0,0],γg为约束遗传病特征的置信度向量;所述家族疾病史特征向量φh=[1,1]或[0,0],γh为约束家族疾病史特征的置信度向量。
8.如权利要求6所述的基于先验医学知识的疾病风险预测方法,其特征在于:所述步骤S4中获得风险预测模型的最优参数包括以下步骤:S41、计算出 计算公式为:
S42、最小化目标函数,得到最优参数,公式为:
9.如权利要求8所述的基于先验医学知识的疾病风险预测方法,其特征在于:所述步骤S4中通过最优参数患者P疾病风险的预测概率公式为: