1.自适应K‑Nets聚类的差分隐私保护方法,其特征是,包括步骤如下:步骤1、将原始数据集中的各个数据点都作为中心点,令K值从1开始逐渐累加,确定每个数据点的K近邻,并基于每个数据点的K近邻确定每个数据点的自然邻居;当所有数据点的自然邻居总数不变或者自然邻居数为0的个数不变时,取这时的K值作为最合适K值;
步骤2、将原始数据集中的各个数据点都作为中心点,令K值为步骤1所确定的最合适K值,确定每个数据点的K近邻;计算每个数据点的得分值,并基于所分配的隐私预算对每个数据点的得分值进行拉普拉斯加噪,得到每个数据点的满足差分隐私得分值;
步骤3、对步骤2所得到的数据点的满足差分隐私得分值进行升序排列;
步骤4、基于步骤3所确定的顺序,对原始数据集中的所有数据点进行遍历;在遍历过程中,判断当前数据点及其K近邻是否都存在于当前有归属数据点集合中:如果都不存在,则将当前数据点及其K近邻加入到当前有归属数据点集合中,并将当前数据点加入到当前中心点集合中:否则,则处理原始数据集的下一个数据点,直到遍历完原始数据集中的所有数据点;
步骤5、完成步骤4之后,有归属数据点集合中存在|M|个数据点及其K近邻所组成的预簇,中心点集合中存在|M|个中心点;
步骤6、先将所有预簇的中心点到预簇中各个数据点的最远距离的平均值作为截止距离;再基于截止距离确定每两个预簇的边界区域集合,若这两个预簇中的其中一个预簇的数据点与另一个预簇的数据点之间的距离小于截止距离时,则这两个数据点属于这两个预簇的边界区域集合;后将所有边界区域集合中的数据点的最大局部密度的平均值作为密度阈值;
步骤7、将原始数据集中没有加入到有归属数据点集合,且局部密度小于密度阈值的数据点,作为离散点;
步骤8、对于每个离散点,从中心点集合的|M|个中心点中找出与该离散点距离最近的中心点,并将该离散点加入到该中心点所属的预簇中,由此生成|M|个最终簇。
2.根据权利要求1所述的自适应K‑Nets聚类的差分隐私保护方法,其特征是,步骤2中,数据点i的得分值Si为:
其中,i=1,2,3,...,N,N为原始数据集的数据点个数,dij为数据点i与其近邻j的距离,K为数据点i的近邻个数。
3.根据权利要求1或2所述的自适应K‑Nets聚类的差分隐私保护方法,其特征是,步骤2中,得分值较大的数据点所分配的隐私预算大于得分值较小的数据点所分配的隐私预算。
4.根据权利要求3所述的自适应K‑Nets聚类的差分隐私保护方法,其特征是,步骤2中,数据点i的隐私预算εi为:
其中,i=1,2,3,...,N,N为原始数据集的数据点个数,Si为数据点i的得分值,ε为给定的总的隐私预算。
5.根据权利要求1所述的自适应K‑Nets聚类的差分隐私保护方法,其特征是,步骤6和7中,数据点i的局部密度ρi为:
其中,i=1,2,3,...,N,N为原始数据集的数据点个数,dij为数据点i与其近邻j的距离,K为数据点i的近邻个数,dc为截止距离。
6.根据权利要求1所述的自适应K‑Nets聚类的差分隐私保护方法,其特征是,步骤4中,有归属数据点集合和中心点集合初始均为空。