欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020105731174
申请人: 安徽工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于差分隐私的数据发布方法,其特征在于,其步骤为:步骤1、输入原始数据集D=(x1,x2,...xn),隐私保护预算ε,全局敏感度Δf;

步骤2、向原始数据集D中的每个数据添加拉普拉斯噪音,得到添加噪音后的序列D*={x1*,x2*,...,xn*};

步骤3、对步骤2所得序列D*进行滤波处理,并对处理后的D*进行排序;

步骤4、对排序后的D*根据SSE进行重构,选取SSE最小的分组,并用平均数描述分组的频数属性;

*

步骤5、将分组后所得的最优桶数据与只加入拉普拉斯噪声的相应的数据集D作比较,选取误差值小的数据,发布最终的重构直方图。

2.根据权利要求1所述的一种基于差分隐私数据发布方法,其特征在于:步骤1中输入的原始数据为统计型数据,每个xi为单位区间的频数,隐私保护预算ε小于1,全局敏感度Δf取1。

3.根据权利要求2所述的一种基于差分隐私数据发布方法,其特征在于:向原始数据集D中的每个数据添加拉普拉斯噪音的过程为:记位置参数为0、尺度参数为b的Laplace分布为Lap(b),那么其概率密度函数如公式(1)所示:取随机变量α~U(0,1)满足均匀分布,将其带入到拉普拉斯累计分布函数的逆函数中,则可以得到满足条件的噪音值如公式(2)所示:取均匀分布α~U(-0.5,0.5),将公式(2)合并为公式(3),如下所示:F-1(x)=0-b*sign(α)*ln(1-2abs(α))       (3)其中,sign函数用来获取参数的正负,abs函数用来获取参数的绝对值,只需通过计算机生成符合α~U(-0.5,0.5)的伪随机数并将其带入式(3)中就可以得到拉普拉斯的噪音误差,将该拉普拉斯噪音添加到D中就能得到加噪后的数据D*。

4.根据权利要求1-3中任一项所述的一种差分隐私数据发布方法,其特征在于:步骤3的滤波处理,如公式(4)所示:其中,xi为经过噪音扰动的D*中的第i个数据,yi为该数据滤波后的结果。

5.根据权利要求4所述的一种差分隐私数据发布方法,其特征在于:步骤3对数据D*进行滤波操作,记录直方图桶顺序信息后,需要再对结果数据yi进行从小到大的随机快速排序。

6.根据权利要求5所述的一种差分隐私数据发布方法,其特征在于:步骤4的具体过程为:首先,计算D*中前i项分成1组的SSE(D*,1,i),1≤i≤n;将其记为T(i,1),计算方式如公式(5)所示:上式中 表示D*中第1个桶到第i个桶计数的均值;

当k>1的时候,根据动态规划的思想求得在k分组下前i项最小的SSE,状态转义公式如(6)所示:T(i,k)=mink-1<<j<<i-1(T(j,k-1)+SSE(D*,j+1,i))       (6)n个桶的分组从1组,2组,...,k组,记录每个分组的T(n,k)选出使得T(n,k)最小的分组,并记录在该分组数下的最优划分,如公式(7)所示:T(n,k)=mink-1<<j<<i-1(T(j,k-1)+SSE(D*,j+1,n))        (7)其中,n是原始直方图桶的个数,k是所有可能的分组聚类数量,1≤k≤n。

7.根据权利要求6所述的一种差分隐私数据发布方法,其特征在于:对于k值,通过以下三个式子直接给出:

1)平方根选择:

2)Sturges公式:k=ceil(1+log2n);

3)Rice规则:

此时只需要将上述三个k值代入式(7),然后进行T(n,k)的比较,选择使T(n,k)最小的k值,并记录式(7)每一步迭代的j的值,最终的分组情况与SSE便可以求出。

8.根据权利要求7所述的一种差分隐私数据发布方法,其特征在于:在进行优化分组,重构完成直方图后,需对排序分组后的数据按照步骤三排序前记录的顺序进行恢复,恢复了直方图数据的次序后,便可以发布最终的直方图。