1.一种移动社交网络用户兴趣的建模方法,其特征在于:总体方案包括用户兴趣信息的选择和获取、用户兴趣模型的表示形式、用户兴趣度权重的计算、兴趣模型的存储以及与之相关的算法,其具体步骤如下:
1)兴趣信息的选择和获取:通过挖掘用户在使用移动社交网络过程中产生的行为和资源来获取和选择信息,具体包括通过用户自身发布的信息,这些信息是挖掘用户兴趣信息的重要来源;通过用户的个人标签,标签以关键词描述了自己喜好和关注的领域,可直接显性获得用户兴趣;通过用户评论与转发的其他用户推送内容;
2)用户兴趣模型的表示形式:用户兴趣信息的来源文本集表示成文本D,建立用于分词和统计词频的Hash词典,提取特征词,用向量空间法表示用户兴趣构成特征向量,将用户的兴趣项和权重表示成向量空间中的向量;将用户的兴趣项按照一定的分类或聚类的原则进行区分,兴趣项数目不宜庞大,以免在存储时造成维度过高,引发矩阵的高维稀疏问题;
3)用户兴趣度权重的计算:兴趣度权重的计算采用改进的TF-IDF算法,该算法通常运用在文本挖掘中用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度,改进是基于考虑到移动社交网络的特性,某些事件客观上在短时间内被大量的转发,造成网民的围观,该情形并不属于用户真实的兴趣表露,在权重的算法设计上要给与识别与纠正;
假设某用户,其在某时间内发布和转发的信息集合为m,则该用 户的某兴趣项权重计算公式为:其中,Msgj表示用户发表的第j条信息,Countij(Msgj)是该条信息中提到兴趣项i的次数,兴趣项共有n项;kall是用户关注的好友总数;kj是转发该信息的用户数;将该权重归一化处理就可以得到用隶属度表示的该用户对某兴趣项的兴趣度;
4)兴趣模型的存储以及与之相关的算法:采用关系型数据库存储移动网络用户及其关注好友所发布和转发的信息内容,确定用户的兴趣项及其相关特征相,这关系到兴趣度的大小和兴趣模型的大小,然后建立兴趣项词典和文本数据清理词典,编写和存储计算兴趣项词频和兴趣度权重计算的算法,总体上,数据库存储表包括用户信息表、用户关系表、兴趣项信息表、兴趣类别表、用户兴趣项词频表、用户兴趣度表;
算法伪代码为:
输入:信息文本集合(如微博)WB
输出:用户的兴趣度向量模型
(1)FOR j=1 TO m
(2)SW=Segment(WBj)//分词处理
(3)END FOR
(4)T=Statistics(SWS)//抽取和统计得到特征项(5)FOR i=1 TO n
(6)FOR j=1 TO m
(7)Countij=Statistics(Ti,WBj)//统计各个微博中包含的特征项的词频(8)wij=Weight(Countij,m,kall,kj)//计算某条微博中包含的兴趣项的权重(9) //得到用户的各兴趣项权重(10) //归一化处理得到兴趣度
(11)END FOR
(12)END FOR
(13)W={(T1,W1),(T2,W2),...,(Tn,Wn)}//得到用户的兴趣向量模型。