1.一种基于差分隐私的数据发布方法,其特征在于,其步骤为:步骤1、输入原始数据集D=(x1,x2,...xn),隐私保护预算ε,全局敏感度Δf;
步骤2、向原始数据集D中的每个数据添加拉普拉斯噪音,得到添加噪音后的序列D*={x1*,x2*,...,xn*};
步骤3、对步骤2所得序列D*进行滤波处理,并对处理后的D*进行排序;
步骤4、对排序后的D*根据SSE进行重构,选取SSE最小的分组,并用平均数描述分组的频数属性;
*
步骤5、将分组后所得的最优桶数据与只加入拉普拉斯噪声的相应的数据集D作比较,选取误差值小的数据,发布最终的重构直方图。
2.根据权利要求1所述的一种基于差分隐私数据发布方法,其特征在于:步骤1中输入的原始数据为统计型数据,每个xi为单位区间的频数,隐私保护预算ε小于1,全局敏感度Δf取1。
3.根据权利要求2所述的一种基于差分隐私数据发布方法,其特征在于:向原始数据集D中的每个数据添加拉普拉斯噪音的过程为:记位置参数为0、尺度参数为b的Laplace分布为Lap(b),那么其概率密度函数如公式(1)所示:取随机变量α~U(0,1)满足均匀分布,将其带入到拉普拉斯累计分布函数的逆函数中,则可以得到满足条件的噪音值如公式(2)所示:取均匀分布α~U(-0.5,0.5),将公式(2)合并为公式(3),如下所示:F-1(x)=0-b*sign(α)*ln(1-2abs(α)) (3)其中,sign函数用来获取参数的正负,abs函数用来获取参数的绝对值,只需通过计算机生成符合α~U(-0.5,0.5)的伪随机数并将其带入式(3)中就可以得到拉普拉斯的噪音误差,将该拉普拉斯噪音添加到D中就能得到加噪后的数据D*。
4.根据权利要求1-3中任一项所述的一种差分隐私数据发布方法,其特征在于:步骤3的滤波处理,如公式(4)所示:其中,xi为经过噪音扰动的D*中的第i个数据,yi为该数据滤波后的结果。
5.根据权利要求4所述的一种差分隐私数据发布方法,其特征在于:步骤3对数据D*进行滤波操作,记录直方图桶顺序信息后,需要再对结果数据yi进行从小到大的随机快速排序。
6.根据权利要求5所述的一种差分隐私数据发布方法,其特征在于:步骤4的具体过程为:首先,计算D*中前i项分成1组的SSE(D*,1,i),1≤i≤n;将其记为T(i,1),计算方式如公式(5)所示:上式中 表示D*中第1个桶到第i个桶计数的均值;
当k>1的时候,根据动态规划的思想求得在k分组下前i项最小的SSE,状态转义公式如(6)所示:T(i,k)=mink-1<<j<<i-1(T(j,k-1)+SSE(D*,j+1,i)) (6)n个桶的分组从1组,2组,...,k组,记录每个分组的T(n,k)选出使得T(n,k)最小的分组,并记录在该分组数下的最优划分,如公式(7)所示:T(n,k)=mink-1<<j<<i-1(T(j,k-1)+SSE(D*,j+1,n)) (7)其中,n是原始直方图桶的个数,k是所有可能的分组聚类数量,1≤k≤n。
7.根据权利要求6所述的一种差分隐私数据发布方法,其特征在于:对于k值,通过以下三个式子直接给出:
1)平方根选择:
2)Sturges公式:k=ceil(1+log2n);
3)Rice规则:
此时只需要将上述三个k值代入式(7),然后进行T(n,k)的比较,选择使T(n,k)最小的k值,并记录式(7)每一步迭代的j的值,最终的分组情况与SSE便可以求出。
8.根据权利要求7所述的一种差分隐私数据发布方法,其特征在于:在进行优化分组,重构完成直方图后,需对排序分组后的数据按照步骤三排序前记录的顺序进行恢复,恢复了直方图数据的次序后,便可以发布最终的直方图。