1.一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,包括以下步骤:S1、获取用户群体的用户信息数据集,对用户信息数据集中的兴趣特征进行关联规则挖掘,获得关于用户兴趣的关联规则集;
S2、随机确定用户群体中k个用户作为聚类分析的初始中心用户;
S3、利用简单匹配的方法对用户信息数据集中单值离散特征进行相似度计算;
S4、将关联规则引入到杰卡德距离的计算过程中,并以此分别计算每个用户与k个中心用户之间兴趣特征的相似度;
S5、将单值离散特征与兴趣特征计算出的相似度进行加权相加,获得综合用户相似度;
S6、分别将每个用户分配到与之相似度最高的中心用户的所属簇中;
S7、利用改进的中心用户更新方法确定簇的新中心;
S8、判断当前中心用户的各特征值与上一次更新的中心用户的特征是否相同,若不相同,返回步骤S3;否则,停止迭代并输出能代表k个用户群体的k个用户数据,每个用户数据为一个类别,完成分类。
2.根据权利要求1所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,单值离散特征为用户的个人信息;兴趣特征为用户的一个或多个业余娱乐活动以及在该娱乐活动中喜爱的一个或多个项目。
3.根据权利要求1所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,综合用户相似度表示为:
其中,Dis(a,b)表示用户a与用户b之间的综合用户相似度;Dis(a,b)′表示用户a与用户b之间的单值离散特征相似度;μ为单值离散特征相似度的权重;Dis(a,b)″表示用户a与用户b之间的基于兴趣特征的相似度; 为基于兴趣特征的相似度的权重。
4.根据权利要求3所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,用户a与用户b之间的单值离散特征相似度Dis(a,b)′表示为:其中,Nf(a,b)代表用户a与用户b特征值不同的数量;m为特征总数。
5.根据权利要求3所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,用户a与用户b之间的基于兴趣特征的相似度Dis(a,b)″表示为:其中,NI(a,b)表示用户a与用户b之间交集的个数;NU(a,b)表示用户a与用户b之间并集的个数;Aa,b为近似交集数的数量。
6.根据权利要求5所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,所述近似交集数的数量Aa,b的值为满足判断条件的所有强关联规则的置信度之和,近似交集数的数量Aa,b的计算过程包括:S400、采用Apriori算法进行关联规则挖掘,获得关联规则集,关联规则集中的一个关联规则表示为:X→Y;
S401、判断是否已经将关联规则集遍历完,若没有遍历完则执行步骤S402继续遍历关联规则集;若遍历完成,则执行步骤S406;
S402、若用户a和用户b同时包含第t个关联规则的前件,则执行S403;
若用户a包含第t个关联规则的前件、而用户b不包含,且用户a不包含第t个关联规则的后件、而用户b包含,则执行S405;
否则,将0赋给Vt并返回S401,判断下一个关联规则;
S403、如果用户a和用户b中的其中一个包含第t个关联规则的后件,则执行S404;否则,返回S401;
S404、从第t+1个关联规则开始向后遍历,比较第t个关联规则的置信度Ct与第t′个关联规则的置信度Ct′,记录较大的置信度,并删除第t个和第t′个关联规则以及对应子集的关联规则;遍历结束后,将最大置信度赋给Vt,返回S401;
S405、将Ct/2赋值给Vt,并删除第t个关联规则以及其子集的关联规则,返回S401;
S406、根据每次遍历的最大置信度为第t个关联规则向后遍历取最大值Vt计算近似交集数的数量Aa,b,表示为: Aa,b<NU(a,b)‑NI(a,b);
其中,X和Y为非空不相交项集,X为一个关联规则的前件;Y为一个关联规则的后件;d表示关联规则的总数;NI(a,b)表示用户a与用户b交集的个数;NU(a,b)表示用户a与用户b并集的个数;Vt由每次遍历关联规则集中的最大置信度转换而来,每次遍历的最大置信度为第t个关联规则向后遍历取最大值;第t′个关联规则是指向后遍历的任意一个关联规则。
7.根据权利要求1所述的一种基于聚类和关联规则的线上用户群体分类方法,其特征在于,所述利用改进的中心用户更新方法确定新中心包括:S701、逐个判断簇j中用户的特征类型,若为单值离散特征,执行步骤S702;否则执行步骤S703;
S702、将簇j的新中心的每个特征的值分别更新为簇j中对应每个特征的最频繁值,转到下个特征执行S701;
S703、若Cj=[vj1,...,vje,...,vjl]为簇j中所有多值离散特征值的并集,如果簇j中第e个多值离散特征值vje的数量 不小于簇j中所有对象的数量的二分之一,将第e个多值离散特征值vje添加到簇j的新中心的对应特征中,否则不添加;
S704、判断簇j中所有多值离散特征值的并集中所有的值是否遍历完毕,若遍历完毕则返回步骤S701,判断下一个簇中用户的特征类型;否则返回步骤S703继续遍历;
其中,l表示并集的多值离散特征值种类的数量。
8.一种基于聚类和关联规则的线上用户群体分类装置,其特征在于,包括:用户信息采集模块,用于从线上获取用户的单值离散特征和兴趣特征;
关联规则挖掘模块,用于根据用户的兴趣特征挖掘出关于用户兴趣的关联规则集;
中心用户初始化模块,用于确定k个初始中心用户;
用户相似度计算模块,用于针对不同类型的特征采用不同的用户相似度计算方法,并进行加权相加,获得综合用户相似度;
用户群体划分模块,用于将每个用户分配到与之相似度最高的中心用户的所属簇中;
中心用户更新模块,用于利用改进的中心用户更新方法确定新中心用户;
核心中心用户识别模块,用于识别更新后的k个用户群体的k个用户数据,完成分类。
9.根据权利要求8所述的装置,其特征在于,所述用户相似度计算模块包括单值离散特征相似度计算单元、兴趣特征相似度计算单元以及综合加权单元,其中:单值离散特征相似度计算单元利用简单匹配的方法进行相似度计算;
兴趣特征相似度计算单元将关联规则引入到杰卡德距离的计算过程中,并以此分别计算每个用户与k个中心用户之间兴趣特征的相似度;
综合加权单元将单值离散特征相似度计算单元以及兴趣特征相似度计算单元输出的值进行加权相加,获得综合用户相似度。
10.根据权利要求8所述的装置,其特征在于,所述中心用户更新模块包括:用户特征类型判断单元、单值离散特征处理单元、兴趣特征处理单元以及更新完成判断单元;其中:用户特征类型判断单元用于判断用户特征的类型,若为单值离散特征则将该特征输入单值离散特征处理单元,否则输入兴趣特征处理单元;
单值离散特征处理单元用于将用户的单子离散特征更改为单子离散特征中最频繁的值;
兴趣特征处理单元用于对多值离散特征值进行聚类处理,输出用户的兴趣特征;
更新完成判断单元用于判断中心用户的各个特征值是否与上一次更新的中心用户的特征值一直,若一致,则输出用户分类结果完成分类;否则继续更新中心用户的特征值。