1.一种基于处方数据挖掘的药物推荐方法,其特征在于:首先进行如下假设:
(1)假设特定病种治疗所需的药物功效分为多个主题,患者每日所服药物按照多项分布服务于部分功效主题,且每个功效主题下需要采用的药物也服从多项分布,在此假定下借助LDA模型从服药日志中训练患者每个诊疗日的功效主题分布以及每个功效主题下的药物分布;(2)根据功效主题分布的相似性对不同的诊疗日进行聚类,同一簇中各个诊疗日用药具有类似的功效组合,用相同的标签对其进行标注,将每个患者的用药流程转换为一个功效组合标签序列;(3)假设每日用药的功效组合服从变阶马尔科夫模型,基于历史患者的功效组合标签序列构造概率后缀树,基于此概率后缀树对处于诊疗过程中的患者进行逐日用药推荐;
所述的基于处方数据挖掘的药物推荐方法,具体包括如下步骤:
步骤1:获取数据;通过医院信息系统获取往届病人的处方药物信息,并进行脱敏处理,包括病人编号、病人确诊病种、病人用药开始、结束时间以及药物名称,最终整理成所需的日志格式;
步骤2:数据预处理;为保证原始数据的准确可靠,选择以药物治疗为主要治疗手段的病症为研究对象,通过诊断结论筛选某一病种病人,过滤住院时间过长或者过短的病人日志,此外,剔除处方中出现总次数少于或者多于某一阈值的药物,保留的记录包括病人ID和服药时间信息、药物名称;
步骤3:类比LDA主题模型中词、文档、文档集的概念,将患者单日所服药物的总和类比为一个文档,每种药物类比为一个词,借助LDA主题模型对药物进行聚类,每个类实际对应一个药物功效主题,同时得到各个患者各个诊疗日的药物功效主题分布以及各个功效主题下药物的多项式分布;
步骤4:使用K-means++算法对功效主题分布相似的诊疗日进行聚类,聚类标签作为这些诊疗日药物功效组合的标识;
步骤5:结合患者历史用药信息构建各个患者的每日用药功效组合标签序列,以这些序列为输入训练出该类病症药物治疗过程的概率后缀树模型;
步骤6:从概率后缀树模型的根节点出发,按序列倒序的方式与各层节点进行匹配,寻找能匹配成功的原序列的最长后缀,假设匹配成功时位于节点Node(S)处,该节点之标签对应的后继标签概率向量记为PNext(Node(S));记功效组合标签X对应的功效主题多项式分布中,主题t对应的出现概率为PEffTop|DateClu(X)|t,功效主题t对应的药物多项式分布中,药物drug对应的出现概率为Pdrug|EffTop(t)|drug,则对于任意药物d,其翌日服用的概率计算公式如下所示,其中t与X分别取尽所有的药物功效主题与功效组合标签:PDrug|Seq(d,S)=∑X∑tPdrug|EffTop(t)|d*PEffiTop|DateClu(X)|t*PNext(Node(S))|X。