欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 201811097768X
申请人: 北京工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-03-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于分组变量的低冗余特征选择方法,其特征在于,包括如下步骤:步骤S1:对已知患病与否的电子病历数据进行处理,得到已知结果病历的二维特征数据集;

步骤S2:利用k-means聚类方法构建所述病历的二维特征数据集的自动分组;

步骤S3:提出去冗余分组特征选择方法的模型目标函数;

步骤S4:对S3中提出的目标函数进行全局优化,选择相应特征子集,构建出优化后的疾病预测模型。

2.根据权利要求1所述的基于分组变量的低冗余特征选择方法,其特征在于,所述步骤S1中对已知患病与否的电子病历数据进行处理,得到的已知结果病例的二维特征数据集包括:对电子病历进行处理,将每个病人的电子病历处理成为一条病人记录,每条病人记录di是由两种属性构成的,即di={xi,yi},其中xi={xi1,xi2,...,xiJ}表示该病人的J个属性,如身高、体重、是否有病史,而yi={0,1}表示该病人是否患有该疾病的类别标签,如y1=0表示病人1未患有该疾病,y1=1表示病人1患有该疾病,对于所有N个病人的电子病历就得到了N条病人记录,进而构成了二维数据集D={di},i=1,2,...,N。

3.根据权利要求2所述的基于分组变量的低冗余特征选择方法,其特征在于,所述步骤S2中对二维数据集进行自动分组,得到的数据集分组包括:利用步骤S2中的k-means聚类方法对数据集进行分组,分组后的二维数据集,即G个数据集分组,每个数据集分组为 其中分组个数G可以通过实验进行调优。

4.根据权利要求3所述的基于分组变量的低冗余特征选择方法,其特征在于,所述步骤S3中在特征选择的设置中,旨在找到一个J*1的权重向量w,其中,每个wi对应于第i个特征的重要程度;选择合适的特征子集问题转换为选择权重向量w中K个具有最高权重的特征,所采用的特征选择模型框架的形式为:minw(g(w)+λregularization(w))   (1)其中,假设预测函数为g,w即为函数的参数,g(w)代表了模型的预测误差,regularization(w)代表了模型中参数的规范化函数,对目标函数(1)进行优化后得到的最优解即为所需的w,在将全部特征进行分组的基础上,对所采用的特征选择模型框架中的每一项进行具体设置,即误差项采用平方损失,规范项采用组冗余性和1-2范数,从而得到最终的目标函数为:

5.根据权利要求4所述的基于分组变量的低冗余特征选择方法,其特征在于,利用利普希兹连续性和凸函数特性对步骤3中的目标函数进行优化,得出最优解集w,剔除不相关或冗余的特征,选出真正相关的特征,构建出相应疾病预测模型。