1.一种基于SVM的标签发展趋势预测模型的构建方法,其特征在于,所述方法包括如下步骤:步骤1:数据预处理,收集网站社区的信息内容和其对应的标签数据,对其数据内容按时间排序,取社区形成N天之后的数据,以确保社区的标签网络初步形成;
步骤2:选取样本标签,对数据集进行统计,获取社区标签频率并排序,取比例为前α%的标签作为流行标签,其集合记为Upop;在剩下的标签中选取与流行标签时间相对照的标签为非流行标签;
步骤3:构建标签网络,对同一个信息内容中出现的标签,即认为这些标签间存在关系,使其两两之间形成连边;对所有信息遍历,得到有权无向网络的标签网络图GTag,其中节点为新出现的标签,连边为标签之间的关系,网络的权重为两者共同出现的次数;
步骤4:提取特征数据,对样本标签集合U={Upop,Uunpop},提取其内标签首次创建之后M天网络特征和属性特征,建立样本训练数据集;
在所述步骤4中,提取样本标签的网络特征,M取30,网络特征包括以下方式:
1)新标签提出后30天内的相对度中心性:标签ti的度值Di的计算采用去除孤立节点的方式,计算公式如下:其中,N表示网络中的标签总数;aij表示网络邻接矩阵的元素,即如果标签ti和tj有连边,则aij=1,否则aij=0;
标签ti的度中心性的特征计算,取网络中的标签ti的相对度中心性:其中,Di表示标签ti的度值;
2)新标签提出后30天内的邻居平均度中心性,标签ti的邻居平均度NCi的计算如下:其中,Nneighbor表示标签ti的邻居节点个数, 表示标签ti的邻居节点度值之和;
3)新标签提出后30天内的相对接近中心性,标签ti的接近中心性的度量计算,则同样取标签ti的相对接近中心度:其中,dij表示标签ti与标签tj的距离, 表示标签ti到邻居标签节点的平均测地距离;
4)新标签提出后30天内的特征向量中心性,标签ti的特征向量中心性计算如下:其中,η是一个比例常数,A=(aijwij)是加权的网络邻接矩阵,其中wij表示标签ti与tj之间的权重,并且有wij=wji,记x=[x1 x2…xN]T,则式(5)可写成如下矩阵形式:x=ηAx, (6)
-1
x是矩阵A是特征值η 对应下的特征向量,也称为特征向量中心性;
5)新标签提出后30天内的节点聚类系数,标签ti的聚类系数计算如下:其中,Ei表示标签ti的ki个邻居标签节点之间实际存在的边数,ki(ki-1)/2表示标签ti的ki个邻居节点之间有可能存在的最大边数;
步骤5:采用机器学习分类器模型支持向量机SVM,选取核函数,训练生成基于SVM的标签流行趋势预测模型,并进行十折交叉验证,得出模型结果。
2.如权利要求1所述的一种基于SVM的标签发展趋势预测模型的构建方法,其特征在于:在所述步骤1中,选取N天后的数据作为预处理的数据,其中N的选取,遵循规则为:确保网站中前10%的标签数据在N天内已经生成,即网站中的标签网络已经初步形成。
3.如权利要求1或2所述的一种基于SVM的标签发展趋势预测模型的构建方法,其特征在于:在所述步骤2中,样本标签数据的选取,对标签进行频率降序排列,集合记为 选择中比例为前α%的标签作为流行标签,其集合记为Upop;取所有标签比例为后β%的标签作为非流行标签集合,其集合记为Qunpop,对每一个流行标签tpop∈Upop,搜索与标签tpop的创建时间最近的标签,记为tunpop,同时满足tunpop∈Qunpop,作为非流行标签,以作为流行标签的对照,其集合记为Uunpop。
4.如权利要求1或2所述的一种基于SVM的标签发展趋势预测模型的构建方法,其特征在于在所述步骤4中,样本标签的属性特征提取,属性特征的提取包括:
4.1)新标签提出之后30天内包含该标签的问题的所有答案数;
4.2)所有30天内参与该标签的提出者和回答者在此之前的平均答案数目和平均问题数目以及平均时间经历;
4.3)30天内该标签的平均问题答案响应时间 其计算方式如下:设30天内包含标签ti的问题数目为 30天内标签ti的第s个问题的答案数目为标签ti的第s个问题的创建时间 统计其第v个答案的创建时间 计算其响应时间差,然后对所有的问题和答案的差值取平均 计算公式如下:
4.4)30天内该标签的所有参与用户人数,即该问题的提出者和回答者之和;
4.5)30天内包含该标签的所有问题的平均词长度;
4.6)30天内包含该标签的所有问题的平点赞数目。
5.如权利要求1或2所述的一种基于SVM的标签发展趋势预测模型的构建方法,其特征在于:在所述步骤5中,支持向量机SVM二分类模型的构建,过程如下:首先,确定核函数的选取,使用高斯核RBF,即样本ti和tj之间在特征空间的内积用它们在原始样本空间中通过函数k(ti,tj)来计算,其表达式如下:其中,δ表示高斯核的带宽;
然后进行通过网格算法寻找SVM模型的参数最优值,再进行十折交叉验证,进行多次测试取平均,得出基于SVM的标签流行趋势预测模型的精度指标。