1.MapReduce框架下决策树的差分隐私保护方法,其特征是,包括步骤如下:步骤1、初始化:给定决策树最大深度h和不相交子集的个数m,令当前决策树深度j=0,令集合Ωj为原始数据集,并将原始数据集中的所有条件属性归入条件属性集;
步骤2、将集合Ωj中的一个数据集视为当前数据集,将当前数据集划分为m个不相交的子集;
步骤3、对于当前数据集的每个子集:计算该子集中的每个条件属性和决策属性之间的皮尔逊相关系数,并据此计算该子集的子集最佳分裂点;同时,统计该子集的子集类分布;
步骤4、基于步骤3所得的每个子集的子集最佳分裂点,计算当前数据集的平均最佳分裂点;同时,基于步骤3所得的每个子集的子集类分布,统计当前数据集的总类分布;
步骤5、基于步骤3所得的m个子集中每个条件属性和决策属性之间的皮尔逊相关系数,计算每个条件属性在当前数据集的平均皮尔逊相关系数;然后将每个条件属性的平均皮尔逊相关系数作为其质量函数,利用指数机制挑选出输出概率最大的条件属性作为当前最佳分裂属性,该条件属性在当前数据集中所对应的平均最佳分裂点作为当前最佳分裂点;其中第k个条件属性Ak的输出概率 为:其中,q(Ak)为质量函数,Δq为质量函数的敏感度,ε1为分配的隐私预算,n为条件属性的个数;
步骤6、判断步骤4所得的当前数据集的总类分布是否仅包含一个类别,或者当前决策树深度j是否等于决策树最大深度h:如果是,则不再划分当前数据集,并对当前数据集的类计数添加拉普拉斯噪声,且将当前数据集移出集合Ωj,然后进一步判断集合Ωj是否为空:如果是,则转至步骤7;否则,继续返回步骤2开始处理集合Ωj中的下一个数据集;
否则,将当前决策树深度j加1,并在集合Ωj下生成两个空的数据集X<j,0>和X<j,1>;然后基于当前最佳分裂点对当前数据集中的各个样本进行划分:当样本的当前最佳分裂属性所对应的属性值大于当前最佳分裂点时,则将该样本划分到集合Ωj中的数据集X<j,1>中;否则,将该样本划分到集合Ωj中的数据集X<j,0>中;之后将当前数据集移出集合Ωj‑1,同时将当前最佳分裂属性移出条件属性集;最后进一步判断条件属性集是否为空:如果是,则转至步骤9;否则继续返回步骤2开始处理集合Ωj中的下一个数据集;
步骤7、先将当前决策树深度j减1,再判断当前决策树深度j是否为0:如果是,将转至步骤9;否则转至步骤8;
步骤8、判断集合Ωj是否为空:如果是,则转至步骤7;否则,进一步判断条件属性集是否为空:如果是:则转至步骤9;否则继续返回步骤2开始处理集合Ωj中的下一个数据集;
步骤9、返回最终的类计数。