1.一种基于不平衡数据集的文本特征选择方法,其特征在于:该选择方法在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:步骤1将数据集分成多数类和少数类,并规定少数类为正类,用ci表示;多数类为负类,用 表示;
步骤2将数据集中的文本进行预处理,分词、去除停用词等操作,形成特征t的集合T;
步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N;
步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ2(t,ci);
步骤5在不平衡类别文档中分别设置筛选特征的阈值,并根据每个特征计算出来的χ2(t,ci)按照大小顺序排列,按照类别取出指定特征数目的特征集合T';
步骤6根据特征选择后的特征集合T',选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。
2.根据权利要求1所述的方法,所述步骤3中的几个参数含义为:
N表示数据集中文档的总数目;A表示正类中包含特征t的文档数;B表示负类中包含特征t的文档数;C表示正类中不包含特征t的文档数;D表示负类中不包含特征t的文档数。
3.根据权利要求1所述的方法,所述步骤4中新的χ2(t,ci)计算公式为:公式中:χ2(t,ci)为度量特征t和文档类别ci之间相关度的卡方统计量;
表示特征代表能力,α越大表明该特征的鉴别性越强,即越能代表少数类; 表示特征t在特定类别文档中的分散度,其中fi(t)表示类别ci中包含特征t的文档数, 表示每个类别里平均含有特征t的文档数,m表示数据集中文本类别总数; 表示的是负相关特征的调节因子,当不平衡类别中出现负相关现象时,为了防止忽略正类中的某些低频特征现象可通过加大某些低频特征的权值,即通过γ参数来调节加大这些特征的权重。γ越大,表示特征t在特定类别出现的相对次数越多。