知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种基于文本分布式特征表示的垃圾稿件分类方法

￥26000

专利号： 2015108094923

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于文本分布式特征表示的垃圾稿件分类方法，其特征在于，包括步骤：搜集稿件文本数据集，对稿件文本进行分词处理，对分词后的稿件文本数据进行训练获得稿件的词向量模型，将稿件文本中每个词向量进行连接，获得稿件文本的分布式特征；根据稿件类别和稿件样本数据的分布式特征向量表示构成一个特征空间上的稿件文本训练数据集；选取线性核的支持向量机对稿件的文本训练数据集进行分类模型训练，建立支持向量机的稿件分类模型，对新输入稿件的文本向量进行判别；

获得稿件的词向量模型进一步包括，提取文本中的词条作为叶子结点，词条在语料中出现的次数当作权值，构造相应的哈弗曼树对每一个词进行哈弗曼编码构建基于负采样Skip-gram算法的跳元模型：对分词后的稿件文本数据进行训练，获得词向量模型，其中，context(x)表示词条x的上下文，NEG(x)表示处理词x～时生成的负样本子集，C表示语料库，θu∈Rn表示词u对应的一个辅助向量，Lx(u)表示词u的标签，表示词对应的向量，σ是一个逻辑回归函数，表示词的标签。

2.根据权利要求1所述的分类方法，其特征在于，取词向量的平均值作为稿件文本的分布式特征。

3.根据权利要求1所述的分类方法，其特征在于，根据稿件类别和稿件样本数据的分布式特征向量表示构成一个特征空间上的稿件文本训练数据集T，T＝{(X1,y1),(X2,y2),…,(Xj,yj),…,(XN,yN)},其中：Xj∈X,yj∈y＝{-1,1}，X表示所有垃圾稿件的集合，y表示标签类别集合，Xj为第j份稿件文本的特征向量，yj为Xj的类标记。

4.根据权利要求 1 所述的分类方法，其特征在于，根据公式：对迭代过程中词u的向量vu进行更新，根据公式

对词的向量进行了更新，使得向量对词的表达

能力加强。

5.根据权利要求1所述的分类方法，其特征在于，当垃圾稿件数据集线性可分时，根据公式w*·X+b*＝0构建分离超平面，将垃圾稿件和有效稿件样本分开，其中，X是输入的稿件的文本向量，w*为权向量，b*为偏置值。

6.根据权利要求1所述的分类方法，其特征在于，当垃圾稿件分类为非线性时，最优超平面中的核函数设计为线性核函数，把输入空间Rn映射到m维的特征空间，在高维空间中构造分界超平面：将垃圾稿件和有效稿件样本分开，式中wj*是连接特征空间至输出空间的线性权，b*为偏置值，φ(x)为线性函数。

7.根据权利要求2所述的分类方法，其特征在于，所述context(x)的构成为：事先设置一个窗口阈值参数window，生成区间[1,window]上的一个随机数c～，在当前给定词x前后各取c～个词构成context(x)。