欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020100103910
申请人: 广西师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-05-09
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于差分隐私的集成学习分类方法,其特征是,包括步骤如下:

步骤1、将数据集的特征值归一化到[0,1],然后将数据集划分为原始训练数据集和验证数据集;同时,设定无放回采样数据集的个数T、有放回采样数据集的个数S和集成模型中基分类器的个数G;

步骤2、利用装袋自助采样法,先对原始训练数据集进行无放回采样得到T个无放回采样数据集Di,再分别对每个无放回采样数据集进行有放回采样得到S个有放回采样数据集步骤3、对于每个无放回采样数据集Di,利用杰卡德相似系数计算其S个有放回采样数据集 两两之间的相似度,并随机删除相似度大于阈值的其中一个有放回采样数据集,将剩下的si个有放回采样数据集作为基分类器训练数据集;

步骤4、利用步骤3得到的 个基分类器训练数据集分别去训练 个基分类

器,在训练过程中对基分类器的类先验概率、均值向量和协方差矩阵加入拉普拉斯噪声,并对加噪后的协方差矩阵进行特征值分解使其满足半正定性,最后将得到的 个满足差分隐私的基分类器即候选基分类器,并构成候选基分类器集合;其中,为每个基分类器训练数据集分配的隐私预算为 其中ε为给定的总的隐私预算,si为第i个无放回采样数据集Di对应的基分类器训练数据集的个数;

步骤5、对步骤4所得到的候选基分类器进行增量选择,由此得到最终集成模型,即:

步骤5.1、从当前候选基分类器集合中选择精度最高的候选基分类器作为集成模型的第一个基分类器,以构建当前集成模型,并从当前候选基分类器集合中删除该候选基分类器;

步骤5.2、计算当前候选基分类器集合中所有候选基分类器的重要性,并按照重要性降序对这些候选基分类器进行排序;

步骤5.3、从重要性高的候选基分类器开始逐一选取,并判断当前选出的候选基分类器是否对当前集成模型的精度有贡献:如果有贡献,则将当前选出的候选基分类器与当前集成模型中的基分类器组合,以更新当前集成模型,并将当前选出的候选基分类器从当前候选基分类器集合中删除,并转至步骤5.4;

否则,继续遍历当前候选基分类器集合中下一个重要性较低的候选基分类器,直到找出对当前集成模型的精度有贡献的候选基分类器;

步骤5.4、判断当前集成模型中的基分类器的个数是否为G个:

如果是,则将当前集成模型作为最终集成模型;

否则,进入下一轮选择,并返回步骤5.2;

步骤6、利用步骤5所得到的最终集成模型对待分类的数据进行分类;

其中i=1,2,……,T,j=1,2,……,S。

2.根据权利要求1所述的基于差分隐私的集成学习分类方法,其特征是,步骤5.2中,在第g轮中第r个基分类器 的重要性 为:其中,r=1,2,…,R,R表示当前候选基分类器集合中候选基分类器的个数;g=1,2,…,G,G表示集成模型中基分类器的个数;xp表示验证数据集中的第p个数据样本,p=1,2,…,P,P表示验证数据集Dpr中数据样本个数,Dpr表示验证数据集;β∈{0,1},当第g轮中第r个基分类器 对验证数据集Dpr中的数据样本xp的分类正确时,β=1,否则,β=0;α表示数据样本间隔的权值,α∈[0,1];yp表示验证数据集Dpr中的数据样本xp的真实类别标签索引;θm表示当前集成模型中第m个基分类器的权重,hm(xp)表示当前集成模型中第m个基分类器对验证数据集Dpr中的数据样本xp的预测类别标签索引, 表示当前集成模型中对验证数据集Dpr中的数据样本xp分类正确的基分类器的个数,M表示当前集成模型中所有基分类器的个数。

3.根据权利要求2所述的基于差分隐私的集成学习分类方法,其特征是,第g轮第r个基分类器的权重 为:其中, 表示第g轮中第r个基分类器的带权误差;r=1,2,…,R,R表示当前候选基分类器集合中候选基分类器的个数;g=1,2,…,G,G表示集成模型中基分类器的个数。

4.根据权利要求3所述的基于差分隐私的集成学习分类方法,其特征是,第g轮中第r个基分类器的带权误差 为:其中, 表示第g轮原始训练数据集中数据样本xq的权重;q=1,2,……,Q,Q表示原始训练数据集中的数据样本个数;γ∈{1,‑1},当第g轮中第r个基分类器 对原始训练数据集中的数据样本xq分类正确时,γ=1,否则γ=‑1;r=1,2,…,R,R表示当前候选基分类器集合中候选基分类器的个数;g=1,2,…,G,G表示集成模型中基分类器的个数。

5.根据权利要求1所述的基于差分隐私的集成学习分类方法,其特征是,步骤5.3中,对当前集成模型的精度有贡献是指加入新的满足差分隐私的基分类器后的集成模型的精度大于等于未加入新的满足差分隐私的基分类器前的集成模型的精度。