欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020112116930
申请人: 石家庄铁道大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-07-17
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种面向政务数据共享的本地化差分隐私方法,其特征在于,该方法在CMS算法的基础上引入数据分箱思想,通过等宽分箱将数据记录分入与原始数据域相比更小的数据域范围内,并构造用于聚合的计数草图矩阵来降低时空复杂度,以克服当前隐私保护算法在数据分布稀疏处统计误差大的问题;在数据提供方设计本地扰动器,用来扰动原始数据:首先根据敏感属性列的值的域大小对数据进行分箱,对于箱中的每一条数据,本地扰动器均选择一个随机哈希函数对其进行编码得到一个向量,并对该向量进行扰动;随后,将包含所选哈希函数索引和扰动向量的报告发送到数据需求方;在数据需求方设计聚合器,当从数据提供方接收到所有扰动报告和相关参数后,数据需求方将通过聚合器对它们进行聚合,聚合私有化数据的数据结构是大小为k  ⨯  m的计数草图矩阵,数据需求方通过对矩阵中k个哈希函数对应的计数进行平均,得到各属性值的频数估计,最后统计校正后生成可用的统计数据。2.根据权利要求1所述的一种面向政务数据共享的本地化差分隐私方法,其特征在于,具体操作过程为:S1、原始记录首先会通过随机选择的哈希函数进行编码,因此在数据提供方设计一组哈希函数H  =  {h1 ,  h2 ,…,hk},并规定H中的函数能够根据输入的数据输出一个不大于m的值,m为每一条数据记录中的敏感属性值d的初始化向量的长度,然后在数据提供方和数据需求方之间共享这组哈希函数;S2、按照等宽分箱思想划分敏感属性值的域区间Z,Zi为划分后比原始数据域小的域区间;S3、初始化一个集合V ,用于存放后续得到的扰动报告,其中,Vi用来存放属于域区间Zi的数据记录的扰动报告;S4、数据提供方依次对共享数据记录中的敏感属性值d进行扰动处理;S5、数据需求方根据接收到的扰动报告和相关参数计算每个属性值的频数统计信息。3.根据权利要求2所述的一种面向政务数据共享的本地化差分隐私方法,其特征在于,数据提供方的扰动处理过程为通过确保受扰动的数据服从本地化差分隐私来防止用户数据泄漏,具体为:S41、为每一条数据记录中的敏感属性值d初始化一个长度为m的向量v ,表示为v  =  {‑1}  m;S42、在k范围内随机地选取数值  j,作为选择第j个哈希函数的索引,其中,hj(d)表示选择第j个函数对敏感属性值d取哈希,若hj(d)  =  134,则将向量v的第134位赋值为1;S43、将向量v的每一个比特位以  的概率进行随机翻转后生成新的向量Ѷ ,表示为Ѷ{‑1,1}m;

S44、将翻转后的向量Ѷ 、哈希函数hj的索引j以及参数k、m、ε的值发送给数据需求方。4.根据权利要求3所述的一种面向政务数据共享的本地化差分隐私方法,其特征在于,S5中,数据需求方在获取到数据提供方的扰动报告和相关参数后,数据需求方将使用相同的参数构造计数草图矩阵,通过计数草图矩阵,进而估计敏感属性值d的计数。5.根据权利要求4所述的一种面向政务数据共享的本地化差分隐私方法,其特征在于,数据需求方具体操作为:S51、初始化大小为k  ⨯  m的全零矩阵M以构造计数草图矩阵,其中,k表示哈希函数的数目,m表示向量v的长度;S52、处理每个扰动报告中的向量v并将其转化为向量x;S53、对于每一个敏感属性值的扰动结果(x,  j),将向量x按位依次加到矩阵M的第j行,第j行代表选择了第j个哈希函数的记录项总和;S54,数据需求方通过读取每一行的值来计算这些估计的均值,从而获得无偏估计。