知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种基于不平衡数据集的文本特征选择方法

面议

专利号： 2016101281001

申请人：浙江工业大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2026-03-16

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于不平衡数据集的文本特征选择方法，其特征在于：该选择方法在计算机上计算不平衡文档的特征集合，选择分类算法模型进行建模，具体包括以下步骤：步骤1将数据集分成多数类和少数类，并规定少数类为正类，用ci表示；多数类为负类，用表示；

步骤2将数据集中的文本进行预处理，分词、去除停用词操作，形成特征t的集合T；

步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N；N表示数据集中文档的总数目；A表示正类中包含特征t的文档数；B表示负类中包含特征t的文档数；C表示正类中不包含特征t的文档数；D表示负类中不包含特征t的文档数；

步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ2(t,ci)；新的χ2(t,ci)计算公式为：公式中：χ2(t,ci)为度量特征t和文档类别ci之间相关度的卡方统计量；

表示特征代表能力，α越大表明该特征的鉴别性越强，即越能代表少数

类；表示特征t在特定类别文档中的分散度，其中fi(t)表示类别ci中包含特征t的文档数，表示每个类别里平均含有特征t的文档数，m表示数据集中文本类别总数；表示的是负相关特征的调节因子，当不平衡类别中出现负相关现象时，为了防止忽略正类中的某些低频特征现象可通过加大某些低频特征的权值，即通过γ参数来调节加大这些特征的权重；γ越大，表示特征t在特定类别出现的相对次数越多；

步骤5在不平衡类别文档中分别设置筛选特征的阈值，并根据每个特征计算出来的χ2(t,ci)按照大小顺序排列，按照类别取出指定特征数目的特征集合T'；

步骤6根据特征选择后的特征集合T'，选择合适的分类算法模型进行建模。