1.一种不确定交易数据库中多序列的周期频繁模式挖掘方法,其特征在于,包括如下步骤:
S1,输入一段时间内大量客户的不确定交易数据库,商家自定义四个阈值,分别为最小支持频率minSup,最大周期数maxPr,周期标准差maxStd和最小期望支持数minExpRa;
S2,扫描数据库构建1项集x的UPFPS‑list,即构建关于某个商品x出现在哪几个用户的购买序列中,按照时间顺序依次出现在哪笔交易中,以及每个商品x的购买概率构成的数据列表UPFPS‑list,判断1项集x是否在不确定数据库中是周期频繁项集UPFPS,具体包括如下步骤:S2.1,计算序列S中出现过商品x的交易数量sup(x,S),计算项集x的最大周期性maxPer(x,S),和周期标准差stanDev(x,S),然后算法循环遍历每个单项集x,对于出现在购买序列S中的商品x,如果商品x的购买概率大于最小购买频率,即sup(x,S)>=minSup,商品x前后两次被购买的时间间隔不超过最大周期阈值,即maxPer(x,S)<=maxPr,商品x的购买周期稳定在一定范围内,即stanDev(x,S)<=maxStd,则称1项集x在此序列S中是周期性频繁的,算法将项集x满足条件的序列存入集合prSeq(x)中;
S2.2,如果期望周期序列比expRa(x)≥minExpRa,则输出1项集x为周期性频繁模式项集UPFPS;
其中,数据库中x的序列期望周期序列比定义为expRa(x)=expSup(x)/|D|,其中expSup(x)的值是根据集合PrSeq(x)中的序列计算的,|D|是序列数据库的序列总数;
S3,根据上界值upExpRa对搜索空间进行修剪,将符合条件upExpRa(x)>=minExpRa的1项集x的UPFPS‑list添加到集合boundUPFPS,不符合条件的不再进行扩展;
S4,利用集合boundUPFPS将修剪后的1项集进行相交合并成2项集,即两个商品的数据信息的组合构建成2项集的UPFPS‑list,将符合上界值upExpRa(x)>=minExpRa的项集的UPFPS‑list保存至boundUPFPS,以便进行新一轮迭代,并且判断2项集是否在不确定数据库中是周期频繁项集UPFPS;
S5,递归循环n‑1项集,直至不能扩展n项集,则输出不确定数据库中所有周期频繁项集UPFPS。
2.根据权利要求1所述的一种不确定交易数据库中多序列的周期频繁模式挖掘方法,其特征在于,一个商品构成的项集为1项集x,多个商品构成的项集为X,设有两个用户指定的阈值maxPr、minSup,如果sup(X,S)>=minSup,maxPer(X,S)<=maxPr,则项集X在序列S中是周期频繁候选模式,序列数据库中以项集X为周期频繁候选模式的序列集合被表示且定义为candSeq(X)={S|sup(X,S)>=minSup^maxPer(X,S)<=maxPr^pro(X,T,S)!=0^T∈S^S∈D},式中T代表一笔交易,D代表数据库,数据库中X的期望支持序列比expRa(X)的值的上界被定义为upExpRa(X)=expSup(X)/|D|,其中expSup(X)的值是根据集合candSeq(X)中的序列计算的,式中|D|代表序列数据库的序列总数;
在不确定序列数据库中,商品X的第k次交易的序列Si中,项集X存在的概率值被定义并表示为pro(X,Tk,Si)(1<=k<=m,1<=i<=|D|),式中Tk代表一笔交易。
3.根据权利要求2所述的一种不确定交易数据库中多序列的周期频繁模式挖掘方法,其特征在于,期望支持数expSup(X)是项集X存在于不确定数据库中指定序列的最大概率之和,其计算公式为: 其中P(X,Si)的值表示项集X存在于序列Si中的交易最大概率,公式为 P(X)代表项集X在序列Si
中的某笔交易中存在的概率值。