1.一种基于标准差和交互信息的慢性疾病特征选择方法,其特征在于,实时获取用户的身体检查数据,对数据进行预处理,将预处理后的数据输入到基于标准差和交互信息的慢性疾病特征选择模型中,得到慢性疾病影响因素并对影响因素进行标记;
基于标准差和交互信息的慢性疾病特征选择模型的训练过程包括:S1:获取原始数据;
S2:将原始数据划分为10个集合,在10个集合中随机选取9个集合作为训练集,剩余1个集合作为测试集;
S3:将训练集作为候选特征集;初始化目标特征集为空,设置初始选择特征个数K;
S4:计算候选特征集中每个特征与类别的互信息值;
S5:筛选与类别具有最大互信息值的特征,将该特征添加到目标特征集S中,并在候选特征集中删除该特征,得到筛选后的候选特征集;
S6:采用评估函数计算筛选后的候选特征集中每个特征的分数,根据各个特征的分数对特征进行筛选,将筛选的特征添加到目标特征集S中,并在候选特征集中删除对应的特征;
S7:重复执行步骤S5~S6,直到目标特征集S中的特征数量为K;
S8:根据目标特征集S计算平均分类精度;
S9:迭代执行步骤S2~S8,当平均分类精度最高时停止迭代,得到最优分类精度的分类模型;根据当前的分类模型对测试集中的特征进行分类,完成模型的训练,并得到慢性疾病的影响因素。
2.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法,其特征在于,对数据进行预处理的过程包括:对数据进行清洗,得到清洗后的数据;对清洗后的数据进行离散化处理,得到离散化的数据;对离散化的数据进行归一化处理,得到预处理好的数据。
3.根据权利要求2所述的一种基于标准差和交互信息的慢性疾病特征选择方法,其特征在于,对数据进行清洗包括:删除变量、填充变量以及处理异常值;其中删除的变量包括:缺失值大于30%变量,高度不平衡的类别变量,慢性疾病以外的所有体检信息变量,版本时间家庭住址变量。
4.根据权利要求2所述的一种基于标准差和交互信息的慢性疾病特征选择方法,其特征在于,归一化处理公式为:
*
其中,F 表示归一化处理后数据,F为未归一化处理的数据,Fmax为原始特征集中的最大值,Fmin为原始特征集中最小值。
5.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法,其特征在于,评估函数为:
其中,Fm表示第m个候选特征,Fj表示第j个目标特征,C表示类别,S表示已选候选集,J(Fm)表示特征分数;I(Fm;C|Fj)是条件互信息,表示给定目标特征Fj的条件下候选特征Fm为类别C提供的信息量;I(Fj;C|Fm)是条件互信息,表示给定目标特征Fj的条件下候选特征Fm为类别C提供的信息量;I(Fm;Fj;C)表示候选特征Fm和目标特征Fj为类别C提供的交互信息,I(Fj;Fm)表示候选特征Fm和目标特征Fj的互信息。
6.根据权利要求5所述的一种基于标准差和交互信息的慢性疾病特征选择方法,其特征在于,交互信息的计算公式为:
I(Fm;Fj;C)=I(Fm,Fj;C)‑[I(Fm;C)+I(Fj;C)]其中,I(Fm,Fj;C)表示候选特征Fm和目标特征Fj的联合互信息,I(Fm;C)表示候选特征Fm为类别C提供的信息量,I(Fj;C)表示目标特征Fj为类别提供的信息量。
7.根据权利要求1所述的一种基于标准差和交互信息的慢性疾病特征选择方法,其特征在于,根据各个特征的分数对特征进行筛选的过程为:若最大分数只有一个,则选择最大分数的特征添加到目标特征集S中;
若最大分数至少有2个,则计算分数对应特征的标准差,选择最小标准差对应的特征添加到目标特征集S中。
8.根据权利要求7所述的一种基于标准差和交互信息的慢性疾病特征选择方法,其特征在于,标准差的计算公式为:
其中,μ表示Fm可以提供的额外信息量的平均值,δ表示标准差,I(Fm;C|Fj)是条件互信息,表示给定目标特征Fj的条件下,候选特征Fm为类别C提供的信息量;I(Fj;C|Fm)是条件互信息,表示给定候选特征Fm的条件下,目标特征Fj为类别C提供的信息量;I(Fm;Fj;C)表示候选特征Fm和目标特征Fj为类别C提供的交互信息,I(Fj;Fm)表示候选特征Fm和目标特征Fj的冗余信息量。