1.一种基于文本分布式特征表示的垃圾稿件分类方法,其特征在于,包括步骤:搜集稿件文本数据集,对稿件文本进行分词处理,对分词后的稿件文本数据进行训练获得稿件的词向量模型,将稿件文本中每个词向量进行连接,获得稿件文本的分布式特征;根据稿件类别和稿件样本数据的分布式特征向量表示构成一个特征空间上的稿件文本训练数据集;选取线性核的支持向量机对稿件的文本训练数据集进行分类模型训练,建立支持向量机的稿件分类模型,对新输入稿件的文本向量进行判别;
获得稿件的词向量模型进一步包括,提取文本中的词条作为叶子结点,词条在语料中出现的次数当作权值,构造相应的哈弗曼树对每一个词进行哈弗曼编码构建基于负采样Skip-gram算法的跳元模型:对分词后的稿件文本数据进行训练,获得词向量模型,其中,context(x)表示词条x的上下文,NEG(x)表示处理词x~时生成的负样本子集,C表示语料库,θu∈Rn表示词u对应的一个辅助向量,Lx(u)表示词u的标签, 表示词 对应的向量,σ是一个逻辑回归函数,表示词 的标签。
2.根据权利要求1所述的分类方法,其特征在于,取词向量的平均值作为稿件文本的分布式特征。
3.根据权利要求1所述的分类方法,其特征在于,根据稿件类别和稿件样本数据的分布式特征向量表示构成一个特征空间上的稿件文本训练数据集T,T={(X1,y1),(X2,y2),…,(Xj,yj),…,(XN,yN)},其中:Xj∈X,yj∈y={-1,1},X表示所有垃圾稿件的集合,y表示标签类别集合,Xj为第j份稿件文本的特征向量,yj为Xj的类标记。
4.根 据 权 利 要 求 1 所 述 的 分 类 方 法 ,其 特 征 在 于 ,根 据 公 式 :对迭代过程中词u的向量vu进行更新,根据公式
对词 的向量 进行了更新,使得向量对词的表达
能力加强。
5.根据权利要求1所述的分类方法,其特征在于,当垃圾稿件数据集线性可分时,根据公式w*·X+b*=0构建分离超平面,将垃圾稿件和有效稿件样本分开,其中,X是输入的稿件的文本向量,w*为权向量,b*为偏置值。
6.根据权利要求1所述的分类方法,其特征在于,当垃圾稿件分类为非线性时,最优超平面中的核函数设计为线性核函数,把输入空间Rn映射到m维的特征空间,在高维空间中构造分界超平面: 将垃圾稿件和有效稿件样本分开,式中wj*是连接特征空间至输出空间的线性权,b*为偏置值,φ(x)为线性函数。
7.根据权利要求2所述的分类方法,其特征在于,所述context(x)的构成为:事先设置一个窗口阈值参数window,生成区间[1,window]上的一个随机数c~,在当前给定词x前后各取c~个词构成context(x)。