欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018115758250
申请人: 北京工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-01-09
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种面向众智云环境的隐私数据访问方法,其特征在于:该方法包括如下步骤:步骤S1:对众智云环境中数据属性根据类型进行区分,得到不同类型属性类别;

步骤S2:针对不同类型属性类别识别它们的隐私程度,获得不同隐私程度数据属性集合;

步骤S3:根据数据属性集合的不同隐私程度纵向划分数据属性,得到数据属性集合;

所述步骤S1中对于输入的属性集合A和属性值集合T,顺序处理每一对(Ai,Ti),i∈1,2,

3…n,通过分析Ti的数据属性来决定对Ai的划分操作,通过数据属性Ai的取值类型来判断Ti中数据的类型,如果数据表设计中没有记录Ai的取值属性,通过从Ti中随机取一个数据集长度较小的子集M,通过M中元素的取值类型来推断Ai的取值类型,将数据属性集合A分为数值型属性集合Anum={A1,A2,…,A|num|}和字符型属性集合Astr={A1,A2,…,A|str|};

所述步骤S2中在步骤S1中分类好数值型属性集合和字符型属性集合的基础上,分别对每一对(Ai,Ti)进行隐私程度判断,其中i∈1,2,3…n,首先统计Ti的数据集长度,记为LEN,则有

LEN=size(Ti)i∈1,2,3…n如果Ai的取值类型为整型数,则统计Ti中的元素分布情况,生成Di,如下所示:其中Di是个二元组,T'i是Ti中不重复元素组成的集合,Ni是由T'i中每个元素在Ti中出现的次数组成的集合;

(1)若T'i与Ti一致,则Ai属性中所有属性值唯一,认为属性Ai信息敏感程度很高,将Ai划分到EID类别;

(2)当T'i不与Ti一致时,考虑T'i集合中的个数,若T'i中元素个数低于阈值t,则认为属性Ai信息敏感程度不高,将Ai划分到QID类别;否则通过下面的均方根公式来检查数据分布情况:

记th(x)为阈值函数,通过大量实验数据来确定th(DSTi)的值,当DSTi>th(DSTi)则认为数据分布不均匀,否则认为数据分布较为均匀;

如果数据分布不均匀,这时将Ai归属到QID类中,对信息进行匿名化处理即可;若数据分布较为均匀,检查T'i是否是小规模的枚举类型,确定S的阈值th(Si),若满足:Si

若Ti的取值不为整型类,则需要判断是否为自由文本;根据自由文本长度不一且较长的特点,取Ti中元素的平均长度,记为TL,则有:其中strlen()为计算字符串长度的函数,另th(TL)为TL的判定阈值;若TL

所述步骤S3中在步骤S2的基础上,在将输入的属性集合A和属性值集合T,通过识别属性隐私程度后分为三大类数据属性集合QID、EID和MI后,再根据数据属性集合对数据集中不同属性进行纵向切割:

(1)将对称加密和非对称加密结合加密EID和QID得到Te表;

(2)将MI中医疗信息提取出来存入明文表Tp中:tpi(Aj)=ti(Aj),Aj∈MI,i=1,2,…,n;

(3)将ti中所有MI自由文本属性值都串联在属性mti的值上,基于mti进行语义距离计算后将T中的所有元组聚类成x组,1≤i≤n,并给每组及其包含的元组分配标签cj,1≤j≤x,cj被看作是分类敏感属性值来进行t‑closeness计算;当使用cj作为分类敏感属性值计算的t‑closeness用于隐私保护时,得到信息损失最小的k‑匿名分区:P(T)={E1,E2,…,En},tai(Aj)=Range(Ek),ti∈Ek,Aj∈QID,i=1,2,…,n;

最后得到纵向分区后的三个表Tp,Ta,Te。