1.一种基于K‑匿名的中药处方数据隐私保护方法,其特征在于,包括:(1)确定待发布中药处方数据集D的标识符属性、敏感属性、准标识符属性,将标识符属性从数据集中直接删除;
(2)比较数据集D中各准标识符属性值的数量,将数量最少的准标识符属性的数量值设为k值,并根据该属性及k值对数据集D进行分组,分组后数据集D由n个等价类E组成,即D=(E1,E2,…,Ei,…,En),i∈[1,n],其中Ei中数据数量为k;
(3)对数据集进行匿名化检查,如果等价类Ei中有任意一条记录与其它k‑1条记录中的一条或者多条具有完全相同的准标识符属性值,则该数据集满足K‑匿名标准,则直接对该等价类中的数据进行发布,否则执行步骤(4);
(4)对数据集中的准标识符属性值进行泛化处理;
(5)对泛化后的数据进行匿名化检查,如果泛化后的数据满足K‑匿名标准则直接进行发布,否则继续进行泛化处理直到满足K‑匿名标准;
(6)检查正确后,获得匿名化的数据集并进行发布。
2.根据权利要求1所述的一种基于K‑匿名的中药处方数据隐私保护方法,其特征在于,所述步骤(2)中根据数量最少的准标识符属性及k值对数据集D进行分组的具体方法为:将同一属性值的分为一组,且该组数据数量为k,如果同一属性值的数据数量小于k,则用下一属性值进行填充,如果同一属性值的数量大于k,则将多于k的部分属性值填充至下一组。
3.根据权利要求1所述的一种基于K‑匿名的中药处方数据隐私保护方法,其特征在于,所述步骤(4)中对数据进行泛化处理的具体方法为:对于数值型数据,利用εk标准化函数进行泛化处理;对于文本型数据,通过构建语义树的方法进行泛化处理。
4.根据权利要求3所述的一种基于K‑匿名的中药处方数据隐私保护方法,其特征在于,所述对数值型数据利用εk标准化函数对等价类中的数据进行泛化处理的具体方法为:
4.1、利用εk标准化函数 将原始数据映射到一个新范围[QInewmin,QInewmax],εk的数值通过人工设定或者随机产生,QIi为等价类Ei中每行的准标识符属性值,[QImin,QImax]为现有范围;
4.2、随机设定中间值μ且μ>0,QInewmax=QInewmin+μ;
4.3、通过上述步骤4.1和步骤4.2得到新范围[QInewmin,QInewmax],该新范围[QInewmin,QInewmax]的上下限值将属性值包括在内并且该范围不超过用户设定的信息损失率,如果超过信息损失率,则重新设定εk值,直到泛化处理后的新范围小于等于用户设定的信息损失率,其中信息损失率P的计算公式为:
5.根据权利要求3所述的一种基于K‑匿名的中药处方数据隐私保护方法,其特征在于,所述对文本型数据构建语义树的具体方法为:首先构建一个树形结构,对需要处理的属性文本进行扫描,把第一个属性值作为语义树的第一个父节点,从第二个属性值依次向树中插入余下的每个属性值,作为新的父节点或子节点,直到所有属性值都插入完毕。
6.根据权利要求5所述的一种基于K‑匿名的中药处方数据隐私保护方法,其特征在于,所述从第二个属性值依次向树中插入余下每个属性值的方法为:对各个节点的关系进行比较,如果新的节点包含第一个父节点,则新节点作为父节点;如果两个节点互不包含,且新节点与原父节点属于同一个属性类,则新节点生成一个新的父节点,在语义树中与第一个节点层数相同;如果两个节点互不包含,且新节点与第一个节点属于不同属性类,但新节点属性类比第一个节点属性类等级高,则生成一个新的父节点,且语义树中层数比第一个节点层数高。
7.根据权利要求6所述的一种基于K‑匿名的中药处方数据隐私保护方法,其特征在于,所述构建语义树后对文本型准标识符属性进行泛化处理的具体方法为:对某一个准标识符属性值a对应于语义树中的节点,将其泛化至该节点的上层,然后对同一等价类中的准标识符属性值b进行同一泛化处理,如果两个泛化后的准标识符属性值在语义树的同一层,则完成该属性值的泛化处理;如果属性值b泛化后在语义树中的层数比属性a泛化后属性值的层数高,则再次对经过泛化处理的属性值a进行泛化处理,直到两者处于语义树的同一层;如果属性值b泛化后在语义树中的层数比属性a泛化后的属性值的层数低,则继续对经过泛化处理的属性值b进行泛化处理,直到两者处于语义树的同一层。