知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于指数协同度量的特征选择方法

￥37100

专利号： 2020104745131

申请人：深圳万知达科技有限公司

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-04-26

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于指数协同度量的特征选择方法，其特征在于，具体按照以下步骤实施：步骤1、获取数据集并进行预处理；

预处理具体为，删除在文档中出现次数小于等于3篇和超过总文档数25％比例的术语；

步骤2、设置最优特征子集的大小为C，并对获取的数据集进行降维处理；具体为：步骤2.1：根据公式(1‑2)计算每一个术语ti对应于类别ck的真阳性率tpr和假阳性率fpr；

其中，tp表示属于类别ck并且包含术语ti的文档数量，fn表示属于类别ck并且不包含术语ti的文档数量，fp表示不属于类别ck并且包含术语ti的文档数量，tn表示不属于类别ck并且不包含术语ti的文档数量；

步骤2.2：根据公式(3)计算术语ti对应于类别ck的最大最小比率λi，k；

步骤2.3：根据公式(4)计算术语ti的权重值ECM(ti)，并根据权重值对特征进行排序，输出最优特征子集；

其中，M代表数据集中类别的总数，p(ck)表示属于类别ck的文档数在整个数据集中所占的比例，k表示类别编号，p(ti)表示在整个数据集中包含特征词ti的文档数占总文档数的比例，α控制最大最小比率λi，k对整个算法的影响权重，通过将α分别置为1，10，50，100和500进行测试发现α值为50时算法性能达到最大；

步骤3、采用5折交叉验证的方法将降维后的数据集划分为测试集和训练集，并对测试集进行分类；

步骤4、使用Macro‑F1和Micro‑F1评价准则对分类器的分类结果进行评估；

Macro‑F1计算过程如下：

其中，Pk表示类别ck的查准率，Rk表示类别ck的查全率，k表示类别编号；

Micro‑F1计算过程如下：

其中，TP表示实际属于正例且分类结果也为正例的文档数量，FP表示实际为反例、分类结果为正例的文档数量，FN代表的是实际为正例、分类结果为反例的文档数量，TN代表的是实际属于反例、分类结果也为反例的文档数量。

2.根据权利要求1所述的一种基于指数协同度量的特征选择方法，其特征在于，所述步骤1中数据集包括RE0、RE1、R52、R8、20News‑groups。

3.根据权利要求1所述的一种基于指数协同度量的特征选择方法，其特征在于，所述步骤3采用朴素贝叶斯和支持向量机算法进行分类器训练进行分类。