欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018112927083
申请人: 中南大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-05-31
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种面向流数据的增量式时态频繁模式并行挖掘方法,其特征在于:包括两部分,第一部分为时态频繁模式和时态次频繁模式的增量式挖掘,第二部分是时态频繁模式树的重建;

第一部分具体步骤为:

初始化时态次频繁模式(SFP‑list)0为空集,时态频繁模式树(TFP‑tree)0为一个带root节点的空树;通过以下步骤对t‑1时刻的时态频繁模式集和时态次频繁模式进行更新,得到t时刻的时态次频繁模式集(SFP‑list)t和时态频繁模式集(FP‑list)t,(SFP‑list)t和(FP‑list)t中的元素形式为以模式名称为key值,以相应模式在t时刻的权重为value值的键值对:

S11、输入t时刻的数据集DBt、t‑1时刻的时态次频繁模式集(SFP‑list)t‑1、t‑1时刻的时态频繁模式树(TFP‑tree)t‑1;设置时态频繁模式权重阈值θ1,时态次频繁模式权重阈值θ2,θ1>θ2>0;

S12、从t时刻的数据集DBt中获取集合(K‑list)t,集合(K‑list)t中的元素形式为以K‑项集,即模式为key值,以相应K‑项集的计数为value值的键值对;

S13、遍历(K‑list)t中的每一个模式Ii,对其分别进行以下操作:判断Ii是否在(TFP‑tree)t‑1中;若是,则从时态频繁模式树(TFP‑tree)t‑1中获取Ii在t‑

1时刻的权重

否则判断Ii是否在(SFP‑list)t‑1中;若是,则从时态次频繁模式集(SFP‑list)t‑1中获取Ii在t‑1时刻的权重

否则说明Ii在历史中没有出现,令其在t‑1时刻的权重计算Ii在t时刻的权重

判断是否有 若是,则形成以Ii为key值,以 为value值的键值对,并将其添加到时态频繁模式集(FP‑list)t中;

否则判断是否有 若是,则形成以Ii为key值,以 为value值的键值对,并将其添加到时态次频繁模式集(SFP‑list)t中;若 则Ii不属于时态频繁模式也不属于时态次频繁模式;

S14、返回t时刻的时态次频繁模式集(SFP‑list)t和t时刻的时态频繁模式集(FP‑list)t;

第二部分具体步骤为:

S21、输入(FP‑list)t;

S22、初始化一个带root节点的空的时态频繁模式树(TFP‑tree)t;

S23、对于(FP‑list)t中的每一个数据项,统计包含其的所有模式的权重之和,作为该数据项的计数;将(FP‑list)t中的所有数据项按降序排列,记为(F‑list)t;

S24、对于(FP‑list)t中的每一个模式,将其中的数据项按在(F‑list)t中的次序排列,将排序后的(FP‑list)t记为S25、遍历 中的每一个模式Ii,对其分别进行以下操作:判断(TFP‑tree)t是否包含Ii,若是则更新(TFP‑tree)t中Ii的权重,否则将Ii插入(TFP‑tree)t中,并添加其权重;

S26、返回(TFP‑tree)t;

所述步骤12中,获取集合(K‑list)t的具体步骤为:

1)、候选一项集并行计算;

11)、由事务记录得到数据项;以事务记录的行号作为键值对的key值,该行的事务记录作为键值对的value值,作为Mapper的输入数据,输出为以数据项为key值,1为value值的键值对;

12)、获取所有一项的计数;MapReduce程序将具有相同key值的键值对组合起来,经过统计后输出以数据项为key值,计数为value值的键值对,即得到各个数据项的计数;

13)、合并排序;将计数小于最小支持度σ的数据项去除,剩下的所有数据项构成候选一项集;

2)、负载均衡分组;

21)、将候选一项集中的数据项按计数大小降序排列,将排序好的候选一项集记为F‑list;

22)、对事务记录集T‑list中的每条事务记录,将其中的数据项按在F‑list中的次序进行排列,并插入到频繁模式树中,全部的事务记录插入完成后得到频繁模式树;

23)、设系统中计算节点个数为n,根据候选一项集中各个数据项在频繁树中的层次,将其均衡分为n组,使得n个分组对应的计算节点的计算量大致相同,第gid个候选一项集分组记为(G‑list)gid,gid=1,2,…,n;

3)、计算K‑项集计数

31)、对于事务记录集T‑list中的排序好的每条事务记录Ti分别从右向左进行遍历;步骤如下:

i、取j值为Ti中最后一个数据项的序号;

ii、查看其数据项aj所属的候选一项集分组的组号gid;若组号gid在该事务记录之前的遍历过程中出现过,则直接转步骤iii,否则,产生键值对<key=gid,value=a1,a2,..aj>,该键值对中value值为Ti中第1至第j个数据项;

iii、令j=j‑1,返回步骤ii,直至j=0,Ti的遍历完成;

对所有事务记录遍历完成后,将key值均为gid的键值对组合在一起,记为事务记录分组(T‑list)gid;

32)、将事务记录分组(T‑list)gid和对应候选一项集(G‑list)gid作为第gid个计算节点中Reduce程序的输入数据,然后在Reduce程序中调用FP‑Growth算法进行K‑项集的并行计数,获取局部K‑项集的计数;

33)、将所有局部K‑项集计数合并成全局K‑项集计数;由所有的K‑项集及其相应的全局K‑项集计数构成集合(K‑list)t;

在上述步骤31)、32)中,使用MapReduce程序进行并行局部计算。

2.根据权利要求1所述的面向流数据的增量式时态频繁模式并行挖掘方法,其特征在于:采用Redis存储技术来保存t‑1时刻的次频繁模式集(SFP‑list)t‑1和t‑1时刻的时态频繁模式树(TFP‑tree)t‑1。

3.根据权利要求1所述的面向流数据的增量式时态频繁模式并行挖掘方法,其特征在于:所述S13中,将Ii在集合(K‑list)t中的计数作为其在t时刻的权重

4.根据权利要求1所述的面向流数据的增量式时态频繁模式并行挖掘方法,其特征在t t

于:所述S13中,定义Ii在t时刻时态频繁度fi作为其在t时刻的权重 fi的计算方法为:式中, 为模式Ii在t时刻出现的次数,其取值根据集合(K‑list)t中的数据确t

定,为设置的时间衰减因子, last_time为模式Ii上次出现的时间;T 表示数据流从初始时刻到t时刻的这段时区内按时间粒度来划分的计数时刻数目, 为从初始时刻到t

t时刻内在每个计数时刻实际出现了模式Ii的时刻总数,T和 的累积统计公式分别如下:t t‑1

T=T +1