1.集值数据和社会网络数据联合发布的多源隐私保护方法,其特征是,包括如下步骤:步骤1、去掉集值数据和社会网络数据的标识符,并对社会网络数据进行社区检查,得到社区划分;
步骤2、对于根据集值数据的非敏感值,构建一个泛化树;并根据泛化树对集值数据进行分组,使得每个组内的数据集都满足隐私要求;即:步骤2.1、根据集值数据的非敏感值制定泛化树,并构造分组层次树,将所有非敏感值泛化到最高层次,敏感值则不做任何操作;
步骤2.2、检查当前集值数据的各个分组是否满足ρ-uncertainty隐私要求;
如果分组满足ρ-uncertainty隐私要求,则直接对该分组进行分组细化;
如果分组不满足ρ-uncertainty隐私要求,在该分组中随机选择某个项目删除,删除后再更新所有关联规则的置信度;如果数据集中存在小于等于ρ的关联规则,则转至步骤2.3;
如果数据集中存在大于ρ的关联规则,则继续在该分组中随机选择某个项目删除,直到整个数据集中不再有置信度大于ρ的关联规则;
步骤2.3、计算当前集值数据的细化信息损失和删除信息损失;
如果细化信息损失大于删除信息损失,则转至步骤2.2;
如果细化信息损失小于等于删除信息损失,则直接发布当前组内数据;
步骤3、先将社会网络数据节点与集值数据ID对应,根据步骤2所得的集值数据的分组,对社交网络数据的节点进行对应分组;再对社交网络数据进行组内匿名处理;即:步骤3.1、将社会网络数据节点与集值数据ID对应,并根据步骤2所得的集值数据的分组,对社交网络数据的节点进行对应分组;
步骤3.2、计算社交网络数据的每个分组的平均度,并将距离该平均度最近的偶数作为每个分组的近似平均度;
步骤3.3、对于每个分组,计算当前分组内各个节点vi与本分组的近似平均度的节点差diff(vi);如果diff(vi)>0,则删除diff(vi)条跟节点vi相连的边E(vi,vj);删除边E(vi,vj)两端的节点vi和vj的节点差diff(vi)和节点差diff(vj)均减1;
步骤3.4、对于每个分组,将当前分组内剩余节点的节点差diff(vi)进行排序,如果节点差diff(vi)<0,则添加|diff(vi)|条跟节点vi相连的边E(vi,vj);增加边E(vi,vj)两端的节点vi和vj的节点差diff(vi)和节点差diff(vj)均加1;
步骤3.5、对社交网络数据的所有分组进行步骤3.3和3.4的处理后,直接发布当前社会网络数据。
2.根据权利要求1所述的集值数据和社会网络数据联合发布的多源隐私保护方法,其特征是,步骤1中,采用GN算法对社会网络数据进行社区检查。
3.根据权利要求1所述的集值数据和社会网络数据联合发布的多源隐私保护方法,其特征是,步骤3.3和步骤3.4中,优先删除和增加社区内的边和diff(vj)<0的边。