欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018101546586
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种智慧城市中时空数据小文件合并方法,其特征在于,利用数据挖掘算法,从历史的小文件访问信息中挖掘出具有访问相关性的时空范围,然后将该时空范围内的小文件进行合并;

所述数据挖掘算法采用聚类中的层次聚类算法AGNES;

利用层次聚类算法AGNES,从历史的小文件访问信息中挖掘出具有访问相关性的时空范围,然后将该时空范围内的小文件进行合并的过程如下:

1)将历史的用户访问信息进行参数化表示和时空属性提取;

根据时空数据小文件的定义,每个文件均包含固有的位置属性l、类型属性s以及时间属性t,所以,任意小文件均可用其时空三要素表示(l,s,t);

假设智慧城市中产生的时空数据小文件集为F={f1,f2,…,fm},包含的位置属性集合可表示为L={l1,l2,…,lm},时间属性集合为T={t1,t2,…,tm},类型属性集合为S={s1,s2,…,sm},用户通过访问智慧城市中的应用服务,产生的小文件访问请求序列为A=(a1,a2,…an),其中每个请求项ai,1≤i≤n均对应于一个时空数据小文件fi,1≤i≤n;对该请求序列进行参数化表示和时空属性提取后,形成时空属性序列:A=(a1,a2,…an)=((l1,s1,t1),(l2,s2,t2),…,(ln,sn,tn))     (1);

2)文件合并

2.1)类型属性分类:从历史的小文件访问请求序列A=(a1,a2,…,an)中将包含类型属性为si,si∈S的访问请求序列 分离出来;

2.2)时空聚类:利用层次聚类算法AGNES对访问请求序列 分别进行位置属性的聚类和时间属性的聚类,并对聚类结果进行基于访问密度的加权计算,然后利用加权后的结果得到位置属性的合并范围和时间属性的合并范围;

2.3)小文件合并:根据位置属性、时间属性的合并范围对类型属性为si的小文件进行合并;

2.4)循环步骤2.1)‑2.3),计算出不同属性小文件的时空合并范围分别进行合并,并建立索引;

步骤2.2)中,位置属性的合并范围通过如下方式获取:(1a)请求 里包含的位置属性集合表示为 将位置属性集合 里的每个坐标作为一个簇;

(2a)计算每个簇之间的组平均距离,找到距离最近的两个簇进行合并;

(3a)重复步骤(2a),直到任意两个簇之间的组平均距离均大于预定义的距离阈值聚类算法结束;预定义的所述距离阈值 为位置属性集合 里所有坐标点之间距离的平均值;

(4a)假设步骤(3a)聚类过程结束后,生成的簇集合为 利用这个簇集合,计算它们的平均空间范围,并根据用户的访问热度,即每个簇内坐标点的密度(个数),为簇的空间范围半径进行加权,密度越大权值也越大;

(5a)最后,再对簇集合 内所有的簇加权后的空间范围半径取平均,计算出类型属性si,si∈S的时空数据小文件对应的位置属性合并范围;

步骤2.2)中,时间属性的合并范围通过如下方式获取:(1b)请求 里包含的时间属性集合表示为 将时间属性集合 里的每个坐标作为一个簇;

(2b)计算每个簇之间的组平均时间差,找到时间差最小的两个簇进行合并;

(3b)重复步骤(2b),直到任意两个簇之间的组平均时间差均大于预定义的时间差阈值聚类算法结束;预定义的所述时间差阈值 为时间属性集合 里所有时间点之间差值的平均值;

(4b)假设步骤(3b)聚类过程结束后,生成的簇集合为 利用这个簇集合,计算它们的平均时间跨度范围,并根据用户的访问热度,即每个簇内时间属性点的密度,为簇的时间跨度半径进行加权,密度越大权值也越大;

(5b)最后,再对簇集合 内所有的簇加权后的时间跨度半径取平均,计算出类型属性si,si∈S的时空数据小文件对应的时间属性合并范围。

2.根据权利要求1所述的合并方法,其特征在于,步骤2.3)实现的过程如下:假设小文件数据集F={f1,f2,…,fM}中类型属性为si,si∈S的时空数据小文件位置属性集合为 时间属性集合为 根据步骤2.2)挖掘出来的位置属性合并范围 和时间属性合并范围 对类型属性为si的小文件合并步骤如下:(1c)创建一个文件;

(2c)以时间属性集合 里最靠前的时间属性tv为参考点,找到与其时间跨度小于等于的时间属性组成集合Range_tv;

(3c)以位置属性集合 里任意一个位置属性lu为参考点,找到与其空间距离小于等于的位置属性组成集合Range_lu;

(4c)将位置属性属于Range_lu,时间属性属于Range_tv的时空小文件合并步骤(1c)创建的文件中;

(5c)如果合并后的文件总大小大于预定义的大文件存储容量,跳转至步骤(6c);如果合并后的文件总大小小于预定义的大文件存储容量,则跳转至步骤(7c);

(6c)将集合Range_tv里已经参与合并的时间属性从 中删除 维持当前的位置属性参考点lu不变,循环执行步骤(1c‑5c);

(7c)将集合Range_tv里的时间属性从 中删除 循环执行步骤(2c‑5c),直至将位置属性集合Range_lu、时间属性集合 内所有的小文件都进行了合并;

(8c)如果此时合并后的文件总大小还不够预定义大文件存储容量,将集合Range_lu里的位置属性从 中删除 重置时间属性集合 执行步骤(2c‑5c);

(9c)循环执行步骤(1c‑8c),直至将位置属性集合为 时间属性集合为 类型属性为si的小文件全部合并。

3.根据权利要求2所述的合并方法,其特征在于,步骤2.4)中,所述索引建立在合并生成后的大文件内部,索引用来存储小文件的长度和在大文件内部的偏移位置。

4.根据权利要求3所述的合并方法,其特征在于,合并后生成的大文件放在底层数据存储服务器内同一节点连续存储区间。