1.一种基于先验医学知识的疾病风险预测方法,其特征在于:包括以下步骤:S1、以向量形式输入患者p的EHR记录数据;
S2、使用基于卷积神经网络的预测模型来获得预测概率,从而获得目标函数;
S3、整合先验医学知识融入步骤S2的预测模型,引入一个期望分布值并设置约束特征,通过正则化方法得到损失函数;
S4、通过损失函数计算新的目标函数,并获得风险预测模型的最优参数;通过最优参数预测患者P的疾病风险;
所述步骤S1中第p位患者的EHR记录数据为将xt嵌入到访问级中 则:
vt=Wvxt+bv
其中, 和 是需要学习的参数,k是潜在表示的大小;
所述步骤S2中获得预测概率包括以下步骤:S21、设I表示时间窗口的大小,vt:t+l‑1表示从vt到vt+l‑1的l次的连接,滤波器应用于l次访问的窗口来产生一个新的特征 使用ReLU激活如下:ft=ReLU(Wfvt:t+l‑1+bf)ReLU(f)=max(f,0)其中,bf是偏置项;
则生成图像特征:
S21、应用一个全连接的softmax层用以产生预测概率,如下:(p)
所述步骤S2中预测概率 由后验分布P(yp|X ;θ)表示,其中yp是真实值,真实值yp和预测概率 之间的交叉熵被用于计算损失,则风险预测的目标函数为交叉熵的平均值:所述步骤S3中得到损失函数包括以下步骤:S31、设Q是后验信息约束的集合,则:(p)
其中,φ(X ,yp)是约束特征的集合,b是约束特征期望的界限;
S32、设q(yp)为患者p的期望分布,则损失函数为:其中,α是一个超参数,用于平衡预测模型的平衡,KL(·||·)是用于测量预测模型中(p)期望分布q(yp)与后验分布P(yp|X ;θ)之间差异的Kullback‑Leibler散度;
所述步骤S4中通过损失函数计算新的目标函数的公式为:其中,后验分布
Γ是不同约束特征类别的可学习置信矩阵, 为参数集;
是真实值yp和后验分布 之间的交叉熵平均值;
所述步骤S4中获得风险预测模型的最优参数包括以下步骤:S41、计算出 计算公式为:S42、最小化目标函数,得到最优参数,公式为:所述步骤S4中通过最优参数患者P疾病风险的预测概率公式为: