知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

面向流数据的增量式时态频繁模式并行挖掘方法

￥19600

专利号： 2018112927083

申请人：中南大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-05-31

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种面向流数据的增量式时态频繁模式并行挖掘方法，其特征在于：包括两部分，第一部分为时态频繁模式和时态次频繁模式的增量式挖掘，第二部分是时态频繁模式树的重建；

第一部分具体步骤为：

初始化时态次频繁模式(SFP-list)0为空集，时态频繁模式树(TFP-tree)0为一个带root节点的空树；通过以下步骤对t-1时刻的时态频繁模式集和时态次频繁模式进行更新，得到t时刻的时态次频繁模式集(SFP-list)t和时态频繁模式集(FP-list)t，(SFP-list)t和(FP-list)t中的元素形式为以模式名称为key值，以相应模式在t时刻的权重为value值的键值对：S11、输入t时刻的数据集DBt、t-1时刻的时态次频繁模式集(SFP-list)t-1、t-1时刻的时态频繁模式树(TFP-tree)t-1；设置时态频繁模式权重阈值θ1，时态次频繁模式权重阈值θ2，θ1>θ2>0；

S12、从t时刻的数据集DBt中获取集合(K-list)t，集合(K-list)t中的元素形式为以K-项集，即模式为key值，以相应K-项集的计数为value值的键值对；

S13、遍历(K-list)t中的每一个模式Ii，对其分别进行以下操作：判断Ii是否在(TFP-tree)t-1中；若是，则从时态频繁模式树(TFP-tree)t-1中获取Ii在t-

1时刻的权重

否则判断Ii是否在(SFP-list)t-1中；若是，则从时态次频繁模式集(SFP-list)t-1中获取Ii在t-1时刻的权重否则说明Ii在历史中没有出现，令其在t-1时刻的权重

计算Ii在t时刻的权重

判断是否有若是，则形成以Ii为key值，以为value值的键值对，并将其添加到时态频繁模式集(FP-list)t中；

否则判断是否有若是，则形成以Ii为key值，以为value值的键值对，并将其添加到时态次频繁模式集(SFP-list)t中；若则Ii不属于时态频繁模式也不属于时态次频繁模式；

S14、返回t时刻的时态次频繁模式集(SFP-list)t和t时刻的时态频繁模式集(FP-list)t；

第二部分具体步骤为：

S21、输入(FP-list)t；

S22、初始化一个带root节点的空的时态频繁模式树(TFP-tree)t；

S23、对于(FP-list)t中的每一个数据项，统计包含其的所有模式的权重之和，作为该数据项的计数；将(FP-list)t中的所有数据项按降序排列，记为(F-list)t；

S24、对于(FP-list)t中的每一个模式，将其中的数据项按在(F-list)t中的次序排列，将排序后的(FP-list)t记为S25、遍历中的每一个模式Ii，对其分别进行以下操作：

判断(TFP-tree)t是否包含Ii，若是则更新(TFP-tree)t中Ii的权重，否则将Ii插入(TFP-tree)t中，并添加其权重；

S26、返回(TFP-tree)t。

2.根据权利要求1所述的面向流数据的增量式时态频繁模式并行挖掘方法，其特征在于：采用Redis存储技术来保存t-1时刻的次频繁模式集(SFP-list)t-1和t-1时刻的时态频繁模式树(TFP-tree)t-1。

3.根据权利要求1所述的面向流数据的增量式时态频繁模式并行挖掘方法，其特征在于：所述步骤12中，获取集合(K-list)t的具体步骤为：

1)、候选一项集并行计算；

11)、由事务记录得到数据项；以事务记录的行号作为键值对的key值，该行的事务记录作为键值对的value值，作为Mapper的输入数据，输出为以数据项为key值，1为value值的键值对；

12)、获取所有一项的计数；MapReduce程序将具有相同key值的键值对组合起来，经过统计后输出以数据项为key值，计数为value值的键值对，即得到各个数据项的计数；

13)、合并排序；将计数小于最小支持度σ的数据项去除，剩下的所有数据项构成候选一项集；

2)、负载均衡分组；

21)、将候选一项集中的数据项按计数大小降序排列，将排序好的候选一项集记为F-list；

22)、对事务记录集T-list中的每条事务记录，将其中的数据项按在F-list中的次序进行排列，并插入到频繁模式树中，全部的事务记录插入完成后得到频繁模式树；

23)、设系统中计算节点个数为n，根据候选一项集中各个数据项在频繁树中的层次，将其均衡分为n组，使得n个分组对应的计算节点的计算量大致相同，第gid个候选一项集分组记为(G-list)gid，gid＝1,2,…,n；

3)、计算K-项集计数

31)、对于事务记录集T-list中的排序好的每条事务记录Ti分别从右向左进行遍历；步骤如下：i、取j值为Ti中最后一个数据项的序号；

ii、查看其数据项aj所属的候选一项集分组的组号gid；若组号gid在该事务记录之前的遍历过程中出现过，则直接转步骤iii，否则，产生键值对，该键值对中value值为Ti中第1至第j个数据项；

iii、令j＝j-1，返回步骤ii，直至j＝0，Ti的遍历完成；

对所有事务记录遍历完成后，将key值均为gid的键值对组合在一起，记为事务记录分组(T-list)gid；

32)、将事务记录分组(T-list)gid和对应候选一项集(G-list)gid作为第gid个计算节点中Reduce程序的输入数据，然后在Reduce程序中调用FP-Growth算法进行K-项集的并行计数，获取局部K-项集的计数；

33)、将所有局部K-项集计数合并成全局K-项集计数；由所有的K-项集及其相应的全局K-项集计数构成集合(K-list)t；

在上述步骤31)、32)中，使用MapReduce程序进行并行局部计算。

4.根据权利要求1所述的面向流数据的增量式时态频繁模式并行挖掘方法，其特征在于：所述S13中，将Ii在集合(K-list)t中的计数作为其在t时刻的权重

5.根据权利要求1所述的面向流数据的增量式时态频繁模式并行挖掘方法，其特征在于：所述S13中，定义Ii在t时刻时态频繁度fit作为其在t时刻的权重 fit的计算方法为：式中，为模式Ii在t时刻出现的次数，其取值根据集合(K-list)t中的数据确t定，为设置的时间衰减因子， last_time为模式Ii上次出现的时间；T 表示数据流从初始时刻到t时刻的这段时区内按时间粒度来划分的计数时刻数目，为从初始时刻到t时刻内在每个计数时刻实际出现了模式Ii的时刻总数，Tt和的累积统计公式分别如下：Tt＝Tt-1+1