1.一种基于分组变量的低冗余特征选择方法,其特征在于,包括如下步骤:步骤S1:对已知患病与否的电子病历数据进行处理,得到已知结果病历的二维特征数据集;
步骤S2:利用k-means聚类方法构建所述病历的二维特征数据集的自动分组;
步骤S3:提出去冗余分组特征选择方法的模型目标函数;
步骤S4:对S3中提出的目标函数进行全局优化,选择相应特征子集,构建出优化后的疾病预测模型。
2.根据权利要求1所述的基于分组变量的低冗余特征选择方法,其特征在于,所述步骤S1中对已知患病与否的电子病历数据进行处理,得到的已知结果病例的二维特征数据集包括:对电子病历进行处理,将每个病人的电子病历处理成为一条病人记录,每条病人记录di是由两种属性构成的,即di={xi,yi},其中xi={xi1,xi2,...,xiJ}表示该病人的J个属性,如身高、体重、是否有病史,而yi={0,1}表示该病人是否患有该疾病的类别标签,如y1=0表示病人1未患有该疾病,y1=1表示病人1患有该疾病,对于所有N个病人的电子病历就得到了N条病人记录,进而构成了二维数据集D={di},i=1,2,...,N。
3.根据权利要求2所述的基于分组变量的低冗余特征选择方法,其特征在于,所述步骤S2中对二维数据集进行自动分组,得到的数据集分组包括:利用步骤S2中的k-means聚类方法对数据集进行分组,分组后的二维数据集,即G个数据集分组,每个数据集分组为 其中分组个数G可以通过实验进行调优。
4.根据权利要求3所述的基于分组变量的低冗余特征选择方法,其特征在于,所述步骤S3中在特征选择的设置中,旨在找到一个J*1的权重向量w,其中,每个wi对应于第i个特征的重要程度;选择合适的特征子集问题转换为选择权重向量w中K个具有最高权重的特征,所采用的特征选择模型框架的形式为:minw(g(w)+λregularization(w)) (1)其中,假设预测函数为g,w即为函数的参数,g(w)代表了模型的预测误差,regularization(w)代表了模型中参数的规范化函数,对目标函数(1)进行优化后得到的最优解即为所需的w,在将全部特征进行分组的基础上,对所采用的特征选择模型框架中的每一项进行具体设置,即误差项采用平方损失,规范项采用组冗余性和1-2范数,从而得到最终的目标函数为:
5.根据权利要求4所述的基于分组变量的低冗余特征选择方法,其特征在于,利用利普希兹连续性和凸函数特性对步骤3中的目标函数进行优化,得出最优解集w,剔除不相关或冗余的特征,选出真正相关的特征,构建出相应疾病预测模型。