欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019101879201
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种不均衡疾病数据下最优化学习样本合成算法选择及参数确定方法,其特征在于,所述方法包括以下步骤:

S1、计算疾病数据样本原始均衡度 以最终需要达到的样本均衡度α计算合成采样样本数N=(α‑α1)·(#of Majority Smaples),α∈[α1,∞],利用SMOTE和ADASYN采样方法合成N个新样本;

S2、在不同均衡度α下,计算各个特征xi对样本分类的区分能力 计算方程为:其中, 分别表示特征i的平均值,多数类样本的特征均值及少数类样本特征+ ‑

均值,xk,i ,xk,i分别表示少数类和多数类中的第k个样本的i特征值;

S3、根据步骤S2中所求得的每个单一特征区分度 利用随机森林算法计算出的特征权重,计算特征的总体区分度Fscore其中,wi是利用随机森林算法计算得到的每个特征的权重,n为样本特征的个数;

S4、对于不同合成采样算法下得到的特征总体区分度值Fscore,其值越高,表明合成样本数据越有利用样本分类,即通过Escore确定合成采样算法;

S5、构造激活函数CMin(α)和CMaj(α),表征样本量对少数类和多数类的作用力,同时引入初始样本数均衡度α1来描述原有样本在类间的分布对分类结果的影响:其中,α为经过合成采样后少数类样本数与多数类样本数间的比值,α1表示样本均的初始衡度,由函数定义可知,当α<<1时,即训练样本多数类样本占主导,对少数类样本 的区分能力最小,对多数类样本的区分能力最大,当α>>1时,相反;

S6、结合激活函数CMin(α),CMaj(α)及特征区分度Fscore,计算样本综合区分能力为确定最佳的均衡度α提供了依据,计算方法为:即,最大 值对于的α即为需要通过合成采样得到的最佳样本均衡度值。