欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018111589056
申请人: 武汉斗鱼网络科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-08-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种文本分类方法,其特征在于,包括:

获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息,N和M为大于0的整数,N与M的差值的绝对值小于预置阈值;

从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息,其中,所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征,所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值,所述第三特征包括句子中词语最大词频值;

从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征;

根据所述候选特征和特征选择公式,选择信息增益最大的特征对决策树的节点进行分裂,生成随机森林模型。

2.根据权利要求1所述的方法,其特征在于,所述获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息之前,所述方法还包括:获取X1个颜值区的原文本信息;

当X1与M的差值的绝对值大于所述预置阈值时,从所述X1个颜值区的原文本信息中选择X2个颜值区的文本信息;

根据所述X2个颜值区的文本信息和样本采样公式,计算得到X3个颜值区的新文本信息;

确定所述X3个颜值区的新文本信息与所述X1个颜值区的原文本信息的和为所述N个颜值区的文本信息。

3.根据权利要求2所述的方法,其特征在于,所述根据所述X2个颜值区的文本信息和样本采样公式,计算得到X3个颜值区的新文本信息,包括:根据所述X2个颜值区的文本信息和欧式距离,确定X3个颜值区的近邻文本信息;

根据所述X3个颜值区的近邻文本信息和所述样本采样公式,计算得到所述X3个颜值区的新文本信息。

4.根据权利要求1所述的方法,其特征在于,所述获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息之前,所述方法还包括:获取Y1个游戏分区的原文本信息;

当Y1与M的差值的绝对值大于所述预置阈值时,从所述Y1个游戏分区的原文本信息中选择Y2个游戏分区的文本信息;

根据所述Y2个游戏分区的文本信息和样本采样公式,计算得到Y3个游戏分区的新文本信息;

确定所述Y3个游戏分区的新文本信息与所述Y1个游戏分区的原文本信息的和为所述M个游戏分区的文本信息。

5.根据权利要求4所述的方法,其特征在于,所述根据所述Y2个游戏分区的文本信息和样本采样公式,计算得到Y3个游戏分区的新文本信息,包括:根据所述Y2个游戏分区的文本信息和欧式距离,确定Y3个游戏分区的近邻文本信息;

根据所述Y3个游戏分区的近邻文本信息和所述样本采样公式,计算得到所述Y3个游戏分区的新文本信息。

6.根据权利要求1-5中任一项所述的方法,其特征在于,所述特征选择公式为:其中,G(A)表示属性A的信息增益,Splitl(A)表示属性A的信息划分量,T(F)表示属性A与非属性A的关联度,F表示非属性A集合,调整系数,取值在(0,1)之间。

7.根据权利要求2-5中任一项所述的方法,其特征在于,所述样本采样公式为:si=xi+τ*max(0.1,|xij-xi|),

其中,si表示第i个新样本,xi表示任意一个少数类样本,xij表示xi的第j个近邻样本,0≤j≤N,N表示随机选出N个样本数,τ调整系数,取值在(0,1)之间。

8.一种计算装置,其特征在于,包括:

第一获取模块,用于获取当前场景中N个颜值区的文本信息和M个游戏分区的文本信息,N和M为大于0的整数,N与M的差值的绝对值小于预置阈值;

第一选择模块,用于从所述N个颜值区的文本信息和所述M个游戏分区的文本信息中选择A个文本信息,其中,所述A个文本信息中的每个文本信息包括第一特征、第二特征和第三特征,所述第一特征包括句子长度,所述第二特征包括句子中词语最大逆文本频率指数值,所述第三特征包括句子中词语最大词频值;

第二选择模块,用于从所述第一特征、所述第二特征和所述第三特征中选择至少两个特征作为候选特征;

生成模块,用于根据所述候选特征和特征选择公式,选择信息增益最大的特征对决策树的节点进行分裂,生成随机森林模型。

9.一种计算装置,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一项所述的文本分类方法的步骤。

10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的文本分类方法的步骤。