知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种文本分类方法及计算装置

面议

专利号： 2018111589056

申请人：武汉斗鱼网络科技有限公司

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2025-03-26

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种文本分类方法，其特征在于，包括：获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息，N和M为大于0的整数，N与M的差值的绝对值小于预置阈值；

从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息，其中，所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征，所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值，所述第三特征包括句子中词语最大词频值；

从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征；

根据所述候选特征和特征选择公式，选择信息增益最大的特征对决策树的节点进行分裂，生成随机森林模型；

所述特征选择公式为：

其中，G(A)表示属性A的信息增益，Splitl(A)表示属性A的信息划分量，T(F)表示属性A与非属性A的关联度，F表示非属性A集合，调整系数，取值在(0,1)之间。

2.根据权利要求1所述的方法，其特征在于，所述获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息之前，所述方法还包括：获取X1个颜值区的原文本信息；

当X1与M的差值的绝对值大于所述预置阈值时，从所述X1个颜值区的原文本信息中选择X2个颜值区的文本信息；

根据所述X2个颜值区的文本信息和样本采样公式，计算得到X3个颜值区的新文本信息；

确定所述X3个颜值区的新文本信息与所述X1个颜值区的原文本信息的和为所述N个颜值区的文本信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述X2个颜值区的文本信息和样本采样公式，计算得到X3个颜值区的新文本信息，包括：根据所述X2个颜值区的文本信息和欧式距离，确定X3个颜值区的近邻文本信息；

根据所述X3个颜值区的近邻文本信息和所述样本采样公式，计算得到所述X3个颜值区的新文本信息。

4.根据权利要求1所述的方法，其特征在于，所述获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息之前，所述方法还包括：获取Y1个游戏分区的原文本信息；

当Y1与M的差值的绝对值大于所述预置阈值时，从所述Y1个游戏分区的原文本信息中选择Y2个游戏分区的文本信息；

根据所述Y2个游戏分区的文本信息和样本采样公式，计算得到Y3个游戏分区的新文本信息；

确定所述Y3个游戏分区的新文本信息与所述Y1个游戏分区的原文本信息的和为所述M个游戏分区的文本信息。

5.根据权利要求4所述的方法，其特征在于，所述根据所述Y2个游戏分区的文本信息和样本采样公式，计算得到Y3个游戏分区的新文本信息，包括：根据所述Y2个游戏分区的文本信息和欧式距离，确定Y3个游戏分区的近邻文本信息；

根据所述Y3个游戏分区的近邻文本信息和所述样本采样公式，计算得到所述Y3个游戏分区的新文本信息。

6.根据权利要求2‑5中任一项所述的方法，其特征在于，所述样本采样公式为：si＝xi+τ*max(0.1,|xij‑xi|)，其中，si表示第i个新样本，xi表示任意一个少数类样本，xij表示xi的第j个近邻样本，0≤j≤N，N表示随机选出N个样本数，τ调整系数，取值在(0,1)之间。

7.一种计算装置，其特征在于，包括：第一获取模块，用于获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息，N和M为大于0的整数，N与M的差值的绝对值小于预置阈值；

第一选择模块，用于从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息，其中，所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征，所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值，所述第三特征包括句子中词语最大词频值；

第二选择模块，用于从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征；

生成模块，用于根据所述候选特征和特征选择公式，选择信息增益最大的特征对决策树的节点进行分裂，生成随机森林模型；

所述特征选择公式为：

其中，G(A)表示属性A的信息增益，Splitl(A)表示属性A的信息划分量，T(F)表示属性A与非属性A的关联度，F表示非属性A集合，调整系数，取值在(0,1)之间。

8.一种计算装置，其特征在于，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1‑6中任一项所述的文本分类方法的步骤。

9.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1‑6中任一项所述的文本分类方法的步骤。

推荐专利

一种基于小样本文本分类原型网络欧氏距离计算方法

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们