欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 201611081151X
申请人: 辽宁大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于海量不完备数据集的skyline偏好查询方法,其特征在于:包括以下步骤:(1)根据数据集中各属性重要程度将不完备数据集IS进行投影,得到重要属性投影后的数据集IS’和不重要属性投影后的数据集IS”;

(2)针对数据集IS’和数据集IS”分别进行元组编码;

(3)针对数据集IS’进行严格聚类,所述的严格聚类包括根据聚类编码的定义进行严格聚类和聚类后每个类中被支配的数据元组被剔除两个流程;

(4)针对数据集IS”进行松散聚类;所述的松散聚类包括根据元组编码和每个聚类的编码的包含关系的定义进行松散聚类和聚类后每个类中被支配的数据元组被剔除两个流程;

(5)将步骤(3)中,严格聚类并完成数据剔除的数据集,执行基于属性值排序的skyline偏好查询算法,得到基于严格聚类的skyline查询结果集SSRS;

(6)将步骤(4)中,松散聚类并完成数据剔除的数据集,执行基于支配程度计算的skyline偏好查询算法,得到基于松散聚类的skyline查询结果集RSRS;

(7)将步骤(5)、步骤(6)得到的SSRS与RSRS取交集,如果交集不为空集,那么交集中的元组就是最终的skyline查询结果;

(8)如果步骤(7)的交集为空集,分别计算SSRS与RSRS中元组的信息熵,将SSRS和RSRS中的元组进行信息熵的计算后得出最终的skyline查询结果反馈给用户。

2.根据权利要求1所述的一种基于海量不完备数据集的skyline偏好查询方法,其特征在于:所述(2)针对数据集IS’和数据集IS”进行元组编码的过程如下:p′i·tuple_code(p″i·tuple_code)=Mi,Mi=(m1,m,…,mk);若p′i·vk(p″i·vk)=*,Mi·mik=0;若p′i·vk(p″i·vk)≠*,Mi·mik=1,其中k∈[1,λ]([λ+1,d])其中,IS’和IS”分别是IS在前λ维上的投影和后d-λ维上的投影,d是不完备数据集IS的维数,pi′和pi″分别是元组pi前λ维上的投影和后d-λ维上的投影,Mi是元组pi的编码,λ是维度的分割常数,λ∈[1,d]。

3.根据权利要求1所述的一种基于海量不完备数据集的skyline偏好查询方法,其特征在于:所述步骤(3)严格聚类中的聚类编码过程如下:_对于 如果 存在ccj≠p′i·tuple_code,那么CS′=CS′U{pi′·tuple_code}

其中,CS’是严格聚类编码集合,ccj是聚类编码。

4.根据权利要求1所述的一种基于海量不完备数据集的skyline偏好查询方法,其特征在于:所述步骤(5)中执行基于属性值排序的skyline偏好查询过程,得到严格聚类结果集SSRS的具体过程如下:(5.1):对数据集IS’中的各维度按照元组属性值非降序排序,使得更有可能支配其他元组的元组优先被处理;每维经过排序后都会生成一个数组Di,i∈[1,λ],对于每个数组Di都有Di[j]>=Di[j+1],j∈[1,|IS′|),其中|IS′|代表IS’中的元组个数;对于在第i维上存在缺失属性值的元组是不会加入数组Di中的,为了节省存储空间,数组Di中存储的只是元组id,而不是真正的元组;设立一个指向数组Di的指针ptri,经过严格聚类后没有被支配的元组都纳入候选集Candidate_Set;随机选择一个数组Di,处理数组Di中指针ptri指向的元组;

每个在候选集中的元组都会维护两个值,一个是元组被处理的次数,记为processedCount,一个是元组编码中1的个数即非缺失属性维数,记为dimCount;

(5.2):对于当前被选中的元组p,有以下几种情况:

①,如果元组p′没有被处理过且元组p′还在候选集Candidate_Set中,就将它与除自己以外没有跟它比较过的元组pj′进行比较,即使pi′已经被之前处理过的元组所支配;若候选集中存在元组支配p′,元组p′就被移出候选集;

②:如果元组p′没有被处理过但是被之前处理过的元组支配,即已不在候选集

Candidate_Set中,p′就只与还在候选集Candidate_Set中并且没有与p′比较过的元组比较;在以上两种情况下,候选集中被元组p′支配的元组会被移出候选集;

③:如果元组p′已经被处理过了就不进行任何比较;

④: 其中i≠j,p′i和p′j可比较的维度少于 个,在这些可比较的维度上,若p′i在至少一维上的值比p′“j 好”,剩余维度上的值不比p′“j 差”就认为p′i弱支配p′j,记为pi′>*pj′如果两个元组pi′与pj′之间具有弱支配关系,还需要比较这两个元组的重量;若满足pi′的重量大于pj′的重量,才认为pi′支配pi′;综合考虑非缺失属性值及其被用户所赋予的权重,元组重量计算公式(1),如下所示:

(5.3):当候选集中的元组p的比较次数达到了其非缺失属性维数dimCount,就将这个元组从候选集移到严格skyline结果集SSRS中;

(5.4):当候选集为空或者所有元组都被处理过至少一次时,把候选集Candidate_Set中的其余元组都放入严格聚类skyline结果集SSRS中,此时基于属性值排序的skyline偏好查询过程结束。

5.根据权利要求1所述的一种基于海量不完备数据集的skyline偏好查询方法,其特征在于:所述步骤(6)中执行支配程度计算skyline偏好查询算法,得到松散聚类结果集RSRS的具体过程如下:(6.1):松散聚类规则是对元组编码和聚类编码执行不完全匹配,凡是元组编码与聚类编码符合包含关系就认为该元组可以聚于这个类中;下面是对元组编码与聚类编码之间包含关系的定义:令d1=λ, pi″·tuplecode=Mi″,Mi″=(mik,mik+1,…,mid),如果并且i≠j,ccj=(cjk,cjk+1,…,cjd),对于 mik≤cjk,pi″被放在聚类编码为ccj的对应类中,pi″与ccj之间的包含关系用pi″→ccj表示;如果 对于 mik>cjk,那么ccj→pi″并且这个聚类的编码将被更新为pi″·tuple_code,ccj将被移出CS″;如果pi″·tuple_code与ccj之间没有包含关系或者CS″是空集;除pi″将被放于聚类编码为ccj这种情况之外,都要更新CS″;CS″=CS″∪{pi″·tuple_code},其中,CS”是松散聚类编码集合;

当出现一个元组同时满足多个包含关系时,它可以放于多个聚类中,使得具有较大相似程度的元组尽可能充分的进行比较,进而将一些被其他元组支配的元组剔除,根据前述的元组编码与聚类编码之间的包含关系定义和松散聚类规则,对IS”进行松散聚类后的到了若干个聚类;

(6.2):通过元组之间支配程度计算可以减少skyline查询结果集中的冗余数据;带有用户偏好的数据元组之间的支配关系由它们之间的支配程度决定;支配程度的定义如下:任意两元组之间可以比较的维属性值之差可视作这一维上两元组的支配距离;那么同一聚类中任意两个元组的支配程度可记为可比较维度上支配距离与权重乘积的和;令wλ+1,wλ+2,…,wd为各维权值,元组pi的各维非缺失属性值记为vij,j∈[λ+1,d],那么任意两元组pi对pj的支配程度记为 其中k代表元组之间可以比较的维度,如果domaini,j>0,then pi>pj,如果domaini,j<0,pj>pi,如果domaini,j=0,pi与pj不可相互支配;

根据支配程度的定义,在每个聚类中计算任意两个元组的支配程度,将一些被支配的元组剔除后,把每个聚类中的剩余元组放入松散skyline查询结果集RSRS。

6.根据权利要求1所述的一种基于海量不完备数据集的skyline偏好查询方法,其特征在于:所述步骤(8)中信息熵的计算公式如下:

其中,E(pi)代表元组pi的信息熵,h′代表元组属性标准化后的值,n代表元组的维数。