1.一种面向实时数据的本地化差分隐私数据流发布方法,其特征在于,其步骤为:
步骤1、输入原始数据集D={D1,D2,…,Di|1≤i≤N},初始化参数确定隐私保护预算ε;
步骤2、根据决策算法计算相邻时刻滑动窗口数据之间的相关距离,判断相关距离与阈值的大小得到相似度结果vi,将随机扰动加入到相似度结果vi中得到vi′;其中,通过计算相邻时刻滑动窗口数据之间的相似度,来决定是否需要发布新的加噪直方图,并将随机扰动加入到相似度结果之中得到vi′;所述决策算法具体如下:
1)计算相邻时刻滑动窗口内的数据之间的相关距离,如公式(1):
在公式(1)中,d(xi,yi)为相邻时刻滑动窗口数据之间的相关距离,xik为i时刻的原始k个数据,xjk为j时刻的经过加噪处理之后的k个数据;
2)根据相关距离与阈值之间的判定结果即相似度结果vi,将随机扰动加入到相似度结果中得到vi′如公式(2):在公式(2)中,vi为相关距离与阈值比较大小的结果;vi′为加入随机扰动之后的相似度结果;如果相关距离大于阈值,相似性结果vi′以p的概率赋值为1;若相关距离小于阈值,相似性结果vi′以p的概率赋值为0;否则就以1‑2×p的概率对相似度结果不做任何处理;
步骤3、如果vi′值为正,通过贪心聚类算法减小相邻时刻滑动窗口内的数据误差再进行分配隐私预算用以数据加噪,随后发布当前i时刻的加噪直方图,否则直接发布i‑1时刻的加噪直方图;
步骤4、根据PBA隐私分配策略,合理分配隐私,并据此发布加噪直方图。
2.根据权利要求1所述的一种面向实时数据的本地化差分隐私数据流发布方法,其特征在于:步骤1中输入的原始数据集为统计型数据,隐私保护预算ε小于1。
3.根据权利要求2所述的一种面向实时数据的本地化差分隐私数据流发布方法,其特征在于:步骤2对相邻时刻滑动窗数据集的相似性结果进行随机扰动处理,随机扰动算法满足本地化差分隐私。
4.根据权利要求3所述的一种面向实时数据的本地化差分隐私数据流发布方法,其特征在于:所述决策算法满足w‑事件级隐私,隐私分配为 w为滑动窗口的尺寸长度。
5.根据权利要求4所述的一种面向实时数据的本地化差分隐私数据流发布方法,其特征在于:步骤3通过公式(4)计算每个频数与相邻频数的合并误差与不合并误差;选择合并误差与不合并误差两者间最小的误差进行区间分组;利用组内平均值来代替该组频数,然后再根据隐私分配策略进行分配隐私预算,随后发布最终经过加噪的直方图;
在公式(4)中,y1为每个频数与相邻频数的合并误差;在公式(5)中,y2为每个频数与相邻频数的不合并误差;其中,Di为i时刻的原始数据, 为j时刻加噪之后的数据,w为滑动窗口尺寸,k为滑动窗口内的数据量,n为当前i时刻原始直方图中的数据总数,j为最近发布的加噪直方图数据的时刻,ε为隐私预算。
6.根据权利要求5所述的一种面向实时数据的本地化差分隐私数据流发布方法,其特征在于:所述贪心聚类算法满足w‑事件级隐私。
7.根据权利要求6所述的一种面向实时数据的本地化差分隐私数据流发布方法,其特征在于:步骤4所述隐私分配策略是对于窗口内的w个数据预先均分εi的隐私预算,其中如果相邻时刻滑动窗数据之间的相关距离小于阈值,则发布前一个时刻的加噪直方图,保留此刻给予分配的隐私预算εi;否则,设置参数k记录之前未加噪的直方图的个数,将之前跳过的直方图中保留的所有隐私预算相加得到最新的εi, 随后找出满足加噪的数据,将剩余的隐私预算分配给此时的直方图。