欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020104745131
申请人: 深圳万知达科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-04-26
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于指数协同度量的特征选择方法,其特征在于,具体按照以下步骤实施:步骤1、获取数据集并进行预处理;

预处理具体为,删除在文档中出现次数小于等于3篇和超过总文档数25%比例的术语;

步骤2、设置最优特征子集的大小为C,并对获取的数据集进行降维处理;具体为:步骤2.1:根据公式(1‑2)计算每一个术语ti对应于类别ck的真阳性率tpr和假阳性率fpr;

其中,tp表示属于类别ck并且包含术语ti的文档数量,fn表示属于类别ck并且不包含术语ti的文档数量,fp表示不属于类别ck并且包含术语ti的文档数量,tn表示不属于类别ck并且不包含术语ti的文档数量;

步骤2.2:根据公式(3)计算术语ti对应于类别ck的最大最小比率λi,k;

步骤2.3:根据公式(4)计算术语ti的权重值ECM(ti),并根据权重值对特征进行排序,输出最优特征子集;

其中,M代表数据集中类别的总数,p(ck)表示属于类别ck的文档数在整个数据集中所占的比例,k表示类别编号,p(ti)表示在整个数据集中包含特征词ti的文档数占总文档数的比例,α控制最大最小比率λi,k对整个算法的影响权重,通过将α分别置为1,10,50,100和500进行测试发现α值为50时算法性能达到最大;

步骤3、采用5折交叉验证的方法将降维后的数据集划分为测试集和训练集,并对测试集进行分类;

步骤4、使用Macro‑F1和Micro‑F1评价准则对分类器的分类结果进行评估;

Macro‑F1计算过程如下:

其中,Pk表示类别ck的查准率,Rk表示类别ck的查全率,k表示类别编号;

Micro‑F1计算过程如下:

其中,TP表示实际属于正例且分类结果也为正例的文档数量,FP表示实际为反例、分类结果为正例的文档数量,FN代表的是实际为正例、分类结果为反例的文档数量,TN代表的是实际属于反例、分类结果也为反例的文档数量。

2.根据权利要求1所述的一种基于指数协同度量的特征选择方法,其特征在于,所述步骤1中数据集包括RE0、RE1、R52、R8、20News‑groups。

3.根据权利要求1所述的一种基于指数协同度量的特征选择方法,其特征在于,所述步骤3采用朴素贝叶斯和支持向量机算法进行分类器训练进行分类。