1.数据流中频繁情节挖掘的差分隐私保护方法,其特征是,包括步骤如下:步骤1、初始化:设定总的隐私预算ε,令初始的滑动次数t=0,初始的隐私预算ε0=ε;将初始的滑动采样窗口置于数据流的初始时间戳,此时初始的滑动采样窗口中的所有事务均为更新事务;
步骤2、基于当前隐私预算εt,对当前滑动采样窗口中的更新事务进行窗口内部加噪处理,并发布当前滑动采样窗口所挖掘出的频繁情节及其加噪支持度;
步骤3、令当前滑动次数t加1,并让滑动采样窗口在数据流上向前滑动,同时通过计算当前采样间隔It,确定当前滑动采样窗口在数据流上的当前时间戳;
步骤4、更新当前分配隐私预算εt;其中
其中,It为当前采样间隔,为当前剩余的隐私预算, ε为总的隐私预算, 为第1次滑动到第t‑1次滑动的当前隐私预算之和,t为滑动次数;
步骤5、通过对比当前滑动采样窗口与上一次滑动采样窗口的时间戳,将当前滑动采样窗口中的事务分成重合事务和更新事务,其中重合事务为当前滑动采样窗口与上一个滑动采样窗口相重合的事务,更新事务为当前滑动采样窗口所有事务减去重合事务;
步骤6、对当前滑动采样窗口中的重合事务进行预处理,即:
步骤61、先对当前滑动采样窗口中重合事务进行频繁情节挖掘,并将这些挖掘出的频繁情节归入挖掘频繁情节集中;再分别计算每个挖掘出的频繁情节在挖掘频繁情节集上的加噪支持度;
步骤62、先删除上一个滑动采样窗口所挖掘出的频繁情节中过期的频繁情节,仅保留其中与当前滑动采样窗口的重合事务相对应的频繁情节,并将保留下的频繁情节归入保留频繁情节集中;再分别计算每个保留下的频繁情节在保留频繁情节集上的加噪支持度;
步骤63、计算步骤61中所有挖掘出的频繁情节的加噪支持度之和与步骤62所有保留下的频繁情节的加噪支持度之和的差值,得到支持度差距dist;
步骤64、判断支持度差距dist是否小于等于当前支持度阈值
其中,εt为当前隐私预算,Δ为滑动采样窗口的长度,It为当前采样间隔,t为滑动次数;
如果是,则将步骤62中所有保留下的频繁情节及其加噪支持度直接进行发布,并转至步骤3;否则,将当前滑动采样窗口中的重合事务也视为更新事务后,并继续执行步骤7;
步骤7、基于当前的隐私预算εt,对当前滑动采样窗口中的更新事务进行窗口内部加噪处理,并发布当前滑动采样窗口所挖掘出的频繁情节及其加噪支持度;
步骤8、重复步骤3‑7,从而完成整个数据流的频繁情节及其加噪支持度的分布。
2.根据权利要求1所述的数据流中频繁情节挖掘的差分隐私保护方法,其特征是,步骤
2和步骤7的具体过程如下:
步骤1)、对当前滑动采样窗口中的更新事务进行最小情节挖掘,并将所挖掘到的情节形成情节数据集D;
步骤2)、根据预定的频繁情节的最大长度δ,将情节数据集D随机分成δ个采样情节数据集Dk,并计算每个采样情节数据集Dk的支持度阈值σk:其中,σ为设定的支持度阈值,|Dk|为采样情节数据集Dk中情节个数,|D|为情节数据集D中情节个数;
步骤3)、从当前采样情节数据集Dk中找出长度为k的情节以形成当前候选情节集Tk,并采用二分估计法估计当前候选情节集Tk中可能的当前频繁情节个数ck;
步骤4)、计算当前候选情节集Tk中每个候选情节pi在当前采样数据集Dk上的加噪支持度sp(pi),并将其中加噪支持度sp(pi)大于当前支持度阈值σk的情节放入当前可能频繁情节集Sk中;其中步骤5)、用指数机制从当前可能频繁情节集Sk中选出ck个频繁情节qj,并分别计算这ck个频繁情节qj在情节数据集D上的加噪支持度sp(qj);其中步骤6)、重复步骤3)‑5),依次将每个采样数据集Dk所选出的ck个频繁情节qj及其数据集D上的加噪支持度sp(qj)进行发布;
其中,pi∈Tk,Tk为当前候选情节集;qj∈Sk,Sk为当前可能频繁情节集;pi(Dk)为候选情节pi在采样数据集Dk上的加噪支持度;qj(D)为频繁情节qj在情节数据集D上的加噪支持度;
ck为可能的当前频繁情节个数,εt为当前隐私预算,t为滑动次数,Lap(·)为拉普拉斯函数;
k=1,2,...,δ,δ为频繁情节的最大长度。
3.根据权利要求2所述的数据流中频繁情节挖掘的差分隐私保护方法,其特征是,候选情节集T1中的所有情节均为频繁情节。
4.根据权利要求1所述的数据流中频繁情节挖掘的差分隐私保护方法,其特征是,采样间隔It为:其中,It‑1为上一个采样间隔,且I0=0;θ为设定的采样间隔尺度因子;Ψt为当前PID误差; 为当前剩余的隐私预算,t为滑动次数。