1.数据流关键模式挖掘的差分隐私保护方法,其特征是,具体包括步骤如下:步骤1.1、将窗口置于事务流的起始位置,获得事务流的第一个窗口;
步骤1.2、将第一个窗口内的事务及其第一个窗口之前的事务依次插入到树中,得到原始树T1,并根据该原始树T1得到相应的项计数列表L1;
步骤1.3、对项计数列表L1中的项按照其计数使用2种排序方式即确定顺序和下降顺序来进行调整,得到调整后的项计数列表L1’;
步骤1.4、按照项计数列表L1’去调整原始树T1,得到前缀树T1’;
步骤1.5、根据前缀树T1’根结点的孩子结点的个数,将前缀树T1’划分为相应个数的子树;
步骤1.6、对于每个子树,遍历该子树的所有结点并对其计数添加第一层噪音,并从中选出噪音计数大于它所有孩子结点的计数的结点,再对这些结点的计数添加第二层噪声,得到了这些结点的噪声计数;
步骤1.7、将噪声计数叠加到项计数列表L1’中,并对其中的项按照其计数使用2种排序方式即确定顺序和下降顺序来进行调整,得到添加噪声的项计数列表L1”;
步骤1.8、根据项计数列表L1”去调整前缀树T1’,得到满足差分隐私的前缀树T1”;
步骤1.9、使用条件模式基和集合枚举树挖掘前缀树T1”,得到噪声关键模式结果集O1,并发布;
步骤2.1、将窗口向后移动一个窗格,获得事务流的第q个窗口;将事务流的第q个窗口作为当前窗口,将事务流的第q-1个窗口作为前一窗口;
步骤2.2、把当前窗口之前的事务从前一窗口的前缀树Tq-1”中去掉,并将当前窗口内的新加入的事务按照前一窗口的项计数列表L q-1”的顺序插入到前一窗口的前缀树Tq-1”中,得到当前窗口的前缀树Tq;根据当前窗口的前缀树Tq得到当前窗口的项计数列表Lq;
步骤2.3、对当前窗口的项计数列表Lq中的项按照其计数使用2种排序方式即确定顺序和下降顺序来进行调整,得到调整后的当前窗口的项计数列表Lq’;
步骤2.4、按照当前窗口的项计数列表Lq’去调整当前窗口的前缀树Tq,得到再次调整后当前窗口的前缀树Tq’;
步骤2.5、根据当前窗口的前缀树Tq’根结点的孩子结点的个数,将当前窗口的前缀树Tq’划分为相应个数的子树;
步骤2.6、对于每个子树,遍历该子树的所有结点并对其计数添加第一层噪音,并从中选出噪音计数大于它所有孩子结点的计数的结点,再对这些结点的计数添加第二层噪声,得到了这些结点的噪声计数;
步骤2.7、将噪声计数叠加到当前窗口的项计数列表Lq’中,并对其中的项按照其计数使用2种排序方式即确定顺序和下降顺序来进行调整,得到添加噪声的当前窗口的项计数列表Lq”;
步骤2.8、根据当前窗口的项计数列表Lq”去调整当前窗口的前缀树Tq’,得到满足差分隐私的当前窗口的前缀树Tq”;
步骤2.9、根据当前窗口的项计数列表Lq’去计算当前窗口的第一差异点dis1q;并将当前窗口的第一差异点dis1q与设定的第一差异阈值β1比较;dis1q≤β1,则转至步骤2.10;如果dis1q>β1,则转至步骤2.12;
步骤2.10、使用条件模式基和集合枚举树挖掘当前窗口的前缀树Tq’,得到准确的当前窗口的关键模式结果集Xq;
步骤2.11、根据当前窗口的关键模式结果集Xq和之前最近窗口t所挖掘的噪音关键模式结果集Ot去计算当前窗口的第二差异点dis2q;并将当前窗口的第二差异点dis2q与设定的第二差异阈值β2比较;如果dis2q≤β2,则将噪音关键模式结果集Ot再次发布;dis2q>β2,则转至步骤2.12;
步骤2.12、使用条件模式基和集合枚举树挖掘当前窗口的前缀树Tq”,得到当前窗口的噪声关键模式结果集Oq,并发布;
上述q=2,3,…,t≤q-1。
2.根据权利要求1所述的数据流关键模式挖掘的差分隐私保护方法,其特征是,步骤
1.1和2.1中,窗口包括2个以上的窗格。
3.根据权利要求1所述的数据流关键模式挖掘的差分隐私保护方法,其特征是,步骤
1.6和2.6中,对结点的计数添加噪声时,根据拉普拉斯机制给计数添加满足拉普拉斯分布的随机噪音,使计数满足差分隐私。
4.根据权利要求1所述的数据流关键模式挖掘的差分隐私保护方法,其特征是,步骤
2.1中,当q≥3时,还需要统计当前窗口的前缀树Tq里计数为零的垃圾结点的个数,并计算当前窗口的前缀树Tq中垃圾结点的个数与计数大于预设值θ的结点的个数的比值:若该比值大于设定阈值η,则舍弃当前缀树Tq和项计数列表Lq,并将当前窗口内的事务依次插入到树中,重新得到当前窗口的原始树Tq,并根据当前窗口的原始Tq得到相应的当前窗口的项计数列表Lq;
若该比值小于等于设定阈值η,则转至步骤2.3。
5.根据权利要求1所述的数据流关键模式挖掘的差分隐私保护方法,其特征是,步骤
2.9中,第q个窗口的第一差异点dis1q的计算公式为:
其中,w1为第t个窗口的项计数列表Lt”中确定顺序的权重,w2为第t个窗口的项计数列表Lt”中下降顺序的权重,m为第t个窗口的项计数列表Lt”中确定顺序的长度,n为事务流中包含的所有不同的项的个数,cq[j]为第q个窗口的项计数列表Lq’里第j个项的计数,ct[j]为第t个窗口的项计数列表Lt”里第j个项的计数。
6.根据权利要求5所述的数据流关键模式挖掘的差分隐私保护方法,其特征是,第t个窗口的项计数列表Lt”中确定顺序的权重w1=2/m+n,第t个窗口的项计数列表Lt”中下降顺序的权重w2=1/m+n,其中m为第t个窗口的项计数列表Lt”中确定顺序的长度,n为事务流中包含的所有不同的项的个数。
7.根据权利要求1所述的数据流关键模式挖掘的差分隐私保护方法,其特征是,步骤
2.11中,第q个窗口的第二差异点dis2q的计算公式为:
其中,Ot为第t个窗口的噪音关键模式结果集,Xq为第q个窗口的关键模式结果集,Ot[k]为Ot里第k个关键模式的计数,Xq[k]为Xq里第k个关键模式的计数。