1.一种联邦梯度提升决策树投票并行训练方法,其特征是,包括步骤如下:步骤1、每个参与方利用基于隐私保护的表格数据的对抗生成网络将本地原始样本集生成本地合成样本集后,上传至中心服务器;
步骤2、中心服务器先将所有参与方所上传的本地合成样本集聚合为全局合成样本集,再利用全局合成样本集构建全局kd‑tree,后将全局kd‑tree发送给所有参与方;
步骤3、每个参与方基于全局kd‑tree的树结构,利用本地原始样本集构建各自的本地kd‑tree;
步骤4、每个参与方利用全局kd‑tree和本地kd‑tree中对应叶子节点的样本数量,确定kd‑tree的每个叶子节点的采样样本,并将kd‑tree的所有叶子节点的采样样本形成各自的本地混合样本集后,开始训练过程;
在确定kd‑tree的每个叶子节点的采样样本时:①若 采用过采样的方式确定kd‑tree的每个叶子节点的采样样本,此时:
先计算全局kd‑tree的第i个叶子节点的采样数量再从全局kd‑tree的第i个叶子节点的所有样本中随机采样出 个样本,并加上本地kd‑tree的第i个叶子节点的所有样本,作为第i个叶子节点的采样样本;
②若 采用欠采样的方式确定kd‑tree的每个叶子节点的采样样本,此时:
先计算本地kd‑tree的第i个叶子节点的采样数量再从本地kd‑tree的第i个叶子节点的所有样本中随机采样出 个样本,作为第i个叶子节点的采样样本;
上述式中,|S′(li)|为全局kd‑tree中第i个叶子节点的样本数量,|S(li)|为本地kd‑tree中第i个叶子节点的样本数量,|X′|为全局合成样本集的样本数量,|Xj|为本地原始样本集的样本数量,δ为分布控制参数,0<δ<1;i∈[1,n],n为全局kd‑tree或本地kd‑tree的叶子节点的数量,j∈[1,m],m为参与方的数量;
步骤5、中心服务器协同所有参与方利用其本地混合样本集和本地原始样本集采用基于投票特征的联邦梯度提升决策树训练方法去训练梯度提升决策树。
2.根据权利要求1所述的一种联邦梯度提升决策树投票并行训练方法,其特征是,步骤
5中,基于投票特征的联邦梯度提升决策树训练方法的每一次训练过程具体如下:步骤5.1、每个参与方先根据其当前本地混合样本集,生成当前本地混合样本集的所有特征的梯度直方图;再根据每个特征的梯度直方图计算每个特征的增益值;后将根据增益值从大到小对所有特征进行排序,并将排在前k位的特征作为本地特征上传至中心服务器;
步骤5.2、中心服务器对所有参与方所上传的k个本地特征进行投票统计,其中本地特征被一个参与方上传记为该本地特征获得一票,并将票数排在前2k位的本地特征作为全局特征发送给每个参与方;
步骤5.3、每个参与方根据其当前本地原始样本集,生成这2k个全局特征的梯度直方图,并对2k个梯度直方图加入差分隐私噪声后得到2k个加噪梯度直方图,上传至中心服务器;
步骤5.4、中心服务器先将所有参与方所上传的2k个加噪梯度直方图进行对应全局特征地聚合,得到2k个全局梯度直方图;再根据2k个全局梯度直方图计算2k个全局特征的增益值和分割阈值;后将增益值最大的全局特征作为分割特征,并将该分割特征及其分割阈值发送给每个参与方;
步骤5.5、每个参与方根据所返回的分割特征和分割阈值对当前本地混合样本集和当前本地原始样本集进行划分;
上述k为设定值。
3.根据权利要求1或2所述的一种联邦梯度提升决策树投票并行训练方法,其特征是,步骤5中,在训练梯度提升决策树之前,中心服务器需要确定梯度提升决策树的模型参数,其中模型参数包括弱决策树的深度,弱决策树的个数和损失函数,并将模型参数发送给每个参与方。
4.根据权利要求1所述的一种联邦梯度提升决策树投票并行训练方法,其特征是,步骤
1中,生成样本集的样本数据的数量为 其中|xj|为本地原始样本集xj的样本数量,m为参与方的数量。
5.根据权利要求1所述的一种联邦梯度提升决策树投票并行训练方法,其特征是,还进一步包括如下步骤:
步骤6、将参与方将所需预测的样本实例输入到步骤5所训练好的梯度提升决策树中,由此完成对样本实例的预测。
6.根据权利要求1所述的一种联邦梯度提升决策树投票并行训练方法,其特征是,所述参与方为医院或银行。