知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于分组变量的低冗余特征选择方法

面议

专利号： 201811097768X

申请人：北京工业大学

专利类型：发明专利

专利状态：已下证

更新日期：2025-03-26

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于分组变量的低冗余特征选择方法，其特征在于，包括如下步骤：步骤S1：对已知患病与否的电子病历数据进行处理，得到已知结果病历的二维特征数据集；

步骤S2：利用k-means聚类方法构建所述病历的二维特征数据集的自动分组；

步骤S3：提出去冗余分组特征选择方法的模型目标函数；

步骤S4：对S3中提出的目标函数进行全局优化，选择相应特征子集，构建出优化后的疾病预测模型。

2.根据权利要求1所述的基于分组变量的低冗余特征选择方法，其特征在于，所述步骤S1中对已知患病与否的电子病历数据进行处理，得到的已知结果病例的二维特征数据集包括：对电子病历进行处理，将每个病人的电子病历处理成为一条病人记录，每条病人记录di是由两种属性构成的，即di＝{xi，yi}，其中xi＝{xi1，xi2，...，xiJ}表示该病人的J个属性，如身高、体重、是否有病史，而yi＝{0，1}表示该病人是否患有该疾病的类别标签，如y1＝0表示病人1未患有该疾病，y1＝1表示病人1患有该疾病，对于所有N个病人的电子病历就得到了N条病人记录，进而构成了二维数据集D＝{di}，i＝1，2，...，N。

3.根据权利要求2所述的基于分组变量的低冗余特征选择方法，其特征在于，所述步骤S2中对二维数据集进行自动分组，得到的数据集分组包括：利用步骤S2中的k-means聚类方法对数据集进行分组，分组后的二维数据集，即G个数据集分组，每个数据集分组为其中分组个数G可以通过实验进行调优。

4.根据权利要求3所述的基于分组变量的低冗余特征选择方法，其特征在于，所述步骤S3中在特征选择的设置中，旨在找到一个J*1的权重向量w，其中，每个wi对应于第i个特征的重要程度；选择合适的特征子集问题转换为选择权重向量w中K个具有最高权重的特征，所采用的特征选择模型框架的形式为：minw(g(w)+λregularization(w)) (1)其中，假设预测函数为g，w即为函数的参数，g(w)代表了模型的预测误差，regularization(w)代表了模型中参数的规范化函数，对目标函数(1)进行优化后得到的最优解即为所需的w，在将全部特征进行分组的基础上，对所采用的特征选择模型框架中的每一项进行具体设置，即误差项采用平方损失，规范项采用组冗余性和1-2范数，从而得到最终的目标函数为：

5.根据权利要求4所述的基于分组变量的低冗余特征选择方法，其特征在于，利用利普希兹连续性和凸函数特性对步骤3中的目标函数进行优化，得出最优解集w，剔除不相关或冗余的特征，选出真正相关的特征，构建出相应疾病预测模型。