1.非均匀大数据的分类方法,包括下述步骤:
(1)获得大数据各实例的类数目,各类的名称记为mi,i=1,2,…,M;
(2)采用降抽样方法为每个类mi抽样出Di个数据集;
(3)对每个数据集构建一个元分类器;
(4)对每个类mi的Di个分类器进行集成学习;
(5)测试:对每一个实例,在每个类mi中进行分类,得到的M个结果中准确率最高的类为测试实例的类别。
2.根据权利要求1的方法,所述步骤(2)的每个数据集的数据量ni由 确定,其中ta/2表示置信度的值,通过t分布临界值获得,ε表示设定的最大的允许误差。
3.根据权利要求1的方法,在步骤(3),对每个类mi的Di个数据集构建Di个元分类器的方法选自:二类分类法、最近邻算法、决策树法、神经网络法或森林树法。
4.根据权利要求1的方法,在步骤(3),对每个类mi的Di个数据集构建Di个元分类器的方法选用:二类分类法。
5.根据权利要求1的方法,在步骤(4),采取向前贪婪集成分类结果方法对每个类mi的Di个元分类器进行集成学习,得到一个集成分类器。
6.根据权利要求1的方法,在步骤(4),采取向前贪婪集成分类结果方法的具体过程如下:D.构建候选分类器集合CCS={C1,…,CM}和选定的分类器集合SCS={};
E.对每个分类器Ci,选取准确率最好的分类器,把它从CCS去掉而加入SCS中;
F.把当前每个CCS中的分类器Cj加入SCS中验证,分类结果如果超过用户事先指定的阈值,则跳到E,且把Cj从CCS移到SCS,直到CCS为空集;否则跳到步骤(5);
至此,对M个类,一共建立了M个集成分类器Ci,i=1,…,M,每个集成分类器包含n个元分类器。