1.基于集成模型的脓毒症死亡率预测系统,其特征是,包括:
输入器,用于获取被测者脓毒症相关检测项目的测量值;
处理器,与输入器相连,所述处理器用于对输入器获取的数据进行处理,输出脓毒症死亡率的预测值;所述处理器,包括:数据预处理模块、多维特征选择模块、集成模型构建模块和集成模型预测模块;
所述数据预处理模块,用于对被测者脓毒症相关检测项目测量值的噪声数据或缺失数据进行清洗,对清洗后的数据进行数据转换和归一化处理;
所述多维特征选择模块,用于建立与被测者脓毒症相关检测项目测量值相对应特征项,将特征项作为第一样本,通过基于改进的随机森林算法对所述第一样本进行特征选择,得到被测者脓毒症相关检测项目测量值的若干个主特征子集,将若干个主特征子集构成的样本集合作为第二样本;
所述集成模型构建模块,对随机森林、梯度提升树GBDT和逻辑回归三个基分类器,采用加权投票融合的方法,构建集成模型;
改进的随机森林算法的具体步骤为:
步骤(1):采用10折交叉验证的方法,计算欠采样后得到的平衡数据集中每个特征的重要性;
步骤(2):根据决策树所做的贡献来决定权重,基于多棵决策树的判定结果对一致性高的决策树分配高的权重;
步骤(3):用每个特征重要性乘以每个决策树的权重,再将乘积结果求平均即获得最终的特征重要性度量值;对最终的特征重要性度量值从高到低进行排序,获取排序靠前的设定个特征作为最终分类的主特征子集;
所述步骤(1)的具体步骤为:
每个特征重要性度量值FIij的计算公式如下:
其中,i代表第i个平衡数据集,j代表第j个特征,k代表第k层数据,第j个特征的特征重要性度量是由ACC和ACCFj的差值决定的,ACC代表扰动属性值前的分类准确率,ACCFj代表扰动第j个属性值后的分类准确率;ACCik表示第i个平衡数据集第k层数据扰动属性值前的分类准确率,ACCFijk表示第i个平衡数据集第k层数据扰动第j个属性值前的分类准确率;
所述步骤(2)的具体步骤为:
在S条记录的测试数据集中,第i棵树的权重Wi:
其中Tij表示第i棵树对第j个实例的预测结果,Ej表示对第j个实例的集成预测结果,ACCE表示集成预测的准确率;
所述步骤(3)的具体步骤为:
通过每棵决策树确定所有特征的重要性度量值以后,乘以各树的权重,求平均即获得最终的特征重要性度量值FinalFIj,对最终的特征重要性度量值从高到低进行排序,获取排序靠前的设定个特征作为最终分类的特征子集;
加权融合公式为:
其中,wt(x)是模型ht(x)的权重,wt(x)≥0, 权重由交叉验证得到的准确率决定;
所述集成模型预测模块,将第二样本随机分为训练集和预测集,利用训练集对集成模型进行训练,然后利用预测集对训练好的集成模型进行测试,输出脓毒症死亡率预测值。
2.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,所述脓毒症相关检测项目,包括:ICU停留ID、患者ID、住院ID、性别、入院时间、出院时间、年龄、种族、首次ICU类型、是否在入院时死亡、是否在入院30天内死亡、吸入氧气浓度、血氧饱和度、序贯器官衰竭评分、全身炎症反应综合评分、脓毒症确诊时间、乳酸清除率、用药时间、是否进行机械通气、治疗开始时间或治疗结束时间。
3.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,所述数据预处理模块,包括:数据筛选单元,用于对被测者脓毒症相关检测项目测量值进行筛选,对乳酸清除率测量缺失值进行填充,对测量噪音值进行剔除,测量噪音值主要包括记录错误的测量指标、单位不统一的测量指标、ICU停留ID、患者ID或住院ID;
数据转换单元,用于对经筛选、填充和剔除后的被测者脓毒症相关检测项目测量值进行格式转换;
数据归一化单元,用于采用被测者脓毒症相关检测项目测量值的最大值和最小值对格式转换后的被测者脓毒症相关检测项目测量值进行归一化处理。
4.如权利要求1所述的基于集成模型的脓毒症死亡率预测系统,其特征是,所述多维特征选择模块包括:欠采样单元,在n条记录的脓毒症数据集中,引入区间参数m和n,在区间 之间产生变量a,0<a<1,以有放回的形式随机从大类样本训练集中抽取n×a个大类实例,从小类样本训练集中抽取n×(1-a)个小类实例,所述大类实例是指存活样本;所述小类实例是指死亡样本;并将抽取的大类实例与小类实例随机组合获得多个平衡数据集;
随机森林特征选择单元,使用改进的随机森林算法,对平衡数据集中的特征进行特征选择,筛选出最重要的若干个特征作为最终分类的主特征子集。