欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019113215466
申请人: 山东科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种不平衡数据集下的两阶段文本特征选择方法,其特征在于:包括局部特征选择方法与全局特征选择方法;

局部特征选择方法,即使用基于词频的CHI特征选择方法挑选出局部特征词,具体包括如下步骤:步骤S11:获取带有类别标签的文本数据,将其作为训练样本集D={d1,d2,…dt};

步骤S12:对训练样本集中的文本数据进行预处理,得到类别标签集合C={c1,c2,…cm},按照类别进行分词和去停用词处理,将每个类别ci形成一个初始特征集合Ti={ti1,ti2,…tik},1≤i≤m;

步骤S13:使用基于词频的CHI特征评估函数,计算初始特征集合Ti中的特征词的卡方值;

步骤S14:从各个类别的初始特征集合中提取卡方值排名前K1的特征词放入集合Si中,且第一次特征选择后的特征集合全局特征选择方法,即使用改进的IG特征选择方法挑选出全局特征词,具体包括如下步骤:具体包括以下步骤:

步骤S21:使用IG特征评估函数,针对第一次特征选择后的结果集合S,计算其每个特征词的信息增益值;

步骤S22:选择信息增益值排名前K2的特征词放入最终用于文本分类的特征集合中;

步骤S23:将选择出的特征词,输入到SVM文本分类算法训练分类器。

2.根据权利要求1所述的不平衡数据集下的两阶段文本特征选择方法,其特征在于:步骤S13中所述基于词频的CHI特征评估函数χ2(t,ci)表示形式如公式(1)所示:其中,N表示训练集中总的文档数,A表示包含特征词t且属于类别ci的文档数,B表示是包含t但不属于类别ci的文档数,C表示属于类别ci但不包含特征词t的文档数,D表示既不包含特征t也不属于类别ci的文档数,tf(t,dj)表示类别ci的第dj篇文档中特征词t出现的次数,dfij表示类别ci的第dj篇文档中所有特征词出现的次数的总和,|ci|表示类别ci的总文档数;若仅仅计算特征词在类别ci中出现的总次数,那么在数据集不平衡以及文本长度不一致情况下,会影响特征词的CHI值,因此使用 来去除文档长度不一致带来的影响,同时考虑不平衡数据集每类中的文本数量不一致的情况,使用 去除不平衡数据集对词频的影响;

对于每个类别的初始特征集合Ti,使用公式(1)计算每个特征词的卡方值,并使用公式(2)进行特征选择:其中,nlargest函数表示取卡方值排名前n的特征词,Si表示每个类别经过第一阶段特征选择后的特征集合,S表示整个训练集经过第一阶段特征选择后的特征集合。

3.根据权利要求1所述的不平衡数据集下的两阶段文本特征选择方法,其特征在于:在步骤S21中,具体包括如下步骤:步骤S21.1:根据公式(3),计算归一化词频因子λit:

其中,λit表示特征词t在ci类中的归一化词频因子,当λit越大,特征词t在ci类中出现的次数越多,其类别代表能力越强;

将IG特征评估函数改进为:

公式(4)表示加入归一化词频因子λit后的IG特征评估函数,当λit越大,特征词的IG值越大,那么可筛选出指定类中多次出现的高频特征词;

步骤S21.3:根据公式(5),计算基于熵的类内分散度因子βit:

其中,tf(t,ci)表示类别ci中特征词t的总词频数, 表征特征词在类别ci的每篇文档中出现的概率,βit为特征词t在ci类中的类内分散度因子,βit越大,其熵值越大,那么特征词t在ci类中的各个文档中分布越均匀,这样的特征词类别代表能力强,应当被选出,因此在公式(4)的基础上对IG特征评估函数进一步改进,如公式(6)所示:公式(6)表示加入类内分散度因子βit后的IG特征评估函数,当βit越大,特征词的IG值越大,那么能够筛选出在类内分布均匀的高频特征词;

步骤S21.4:根据公式(7),计算基于熵的类间集中度因子θt:

其中,dfti表示特征词在类别ci中出现的文档频率,dft表示特征词在整个文档集中出现的文档频率,使用 量化特征词在ci类中出现的概率;θt表示特征词t在各个类之间的集中度因子,当特征词仅在单一类别中出现时,θt达到最小且最小值为0,而当特征词在所有类别中均出现时,θt达到最大值,所以特征词在各个类间的分布熵与其类别代表能力相反;

在公式(6)的基础之上对IG特征评估函数进一步改进,如公式(8)所示:公式(8)为加入类间集中度因子后的IG特征评估函数,当θt减小时, 增加,特征词t的IG值随之增加,此时能够筛选出集中出现在少数类中并且在类内分布均匀的高频特征词;

步骤S21.5:使用IG特征评估函数,计算第一次特征选择后的结果集合S中每个特征词的IG值,选取IG值排名前K2的特征词作为最后的特征选择集合W,如公式(9)所示: