1.基于词频偏差率因子的特征选择方法,其特征在于,具体按照以下步骤实施:步骤1、对数据集进行预处理,并将数据集划分为训练集和测试集;
步骤2、使用词频偏差率测量的特征选择算法,设置要选择的特征数,排序,输出最优特征子集;具体按照以下步骤实施:步骤2.1、计算每个术语ti对于类别ck的权重CHI(ti,ck)和术语ti的卡方检验算法权重CHI(ti):其中,N为数据集的文档总数,tp表示属于类别ck并且包含词ti的文档数量,fp表示不属于类别ck并且包含词ti的文档数量,fn表示属于类别ck并且不包含词ti的文档数量,tn表示不属于类别ck并且不包含词ti的文档数量,p(ck)表示类别ck在数据集中所占的比例;
步骤2.2、计算数据集中每个术语的信息增益权重IG(ti),其中,p(ck)表示类别ck在数据集中所占的比例,p(ti)表示包含特征项ti的文本在数据集中所占的比例, 表示不包含词ti的文本在数据集中所占的比例,p(ck|ti)表示在包含ti的文档中,属于类别ck的文本所占的比例, 表示在不包含ti的文档中,属于类别ck的文本所占的比例;
步骤2.3:根据公式 计算术语的真正率tpr和假正率fpr,并根据下式计算每一个术语的MMR(ti)权值,
步骤2.4、计算术语ti在类别ck中出现的次数所占的比例tfk以及在整个数据集范围内出现的次数所占的比例tf,按照下式获得术语ti对于类别ck词频偏差率因子TDR(ti,ck),步骤2.5、计算包含术语ti的文档数量在类ck中所占的比例dfk,以及包含术语ti的文档数量在整个数据集范围内所占的比例df,通过下式计算术语ti的文档比率因子DR(ti,ck),步骤2.6、通过下式将词频偏差率因子TDR分别与CHI、IG、MMR以及文档比率因子DR结合,分别计算出每个术语在结合后的各个算法下的权重值TDR‑CHI(ti),TDR‑IG(ti),TDR‑MMR(ti),TDR‑DR(ti),并依次进行排序,根据开始设定的特征词个数选择排名靠前的特征组成最优特征子集作为输出,其中,M代表数据集中类别的总数,p(ck)表示类别ck在数据集中所占的比例;
步骤3、对最优特征子集进行训练和分类,获取分类结果,并对分类结果进行评估。
2.根据权利要求1所述的基于词频偏差率因子的特征选择方法,其特征在于,所述步骤
1中对数据集进行预处理包括对数据集进行分词和去除停用词操作,设置阈值。
3.根据权利要求1所述的基于词频偏差率因子的特征选择方法,其特征在于,所述步骤
1中对数据集进行预处理还包括删除在文档中出现的篇幅少于或等于3次以及出现的文档频率超过25%的术语。
4.根据权利要求1所述的基于词频偏差率因子的特征选择方法,其特征在于,所述步骤
1中采用5折交叉验证的方法将数据集划分为训练集和测试集。
5.根据权利要求1所述的基于词频偏差率因子的特征选择方法,其特征在于,所述步骤
3中使用朴素贝叶斯分类器和支持向量机分类器对最优特征子集进行训练和分类,获取分类结果。
6.根据权利要求1所述的基于词频偏差率因子的特征选择方法,其特征在于,所述步骤
3中使用宏观F1和微观F1对分类结果进行评估。