1.一种双度集成的不均衡数据流分类算法,其特征在于:包括以下几个步骤:A: 均衡数据流分类模型和非均衡数据流分类模型训练阶段:对于训练数据集中的每一个最新的数据流记录块,将其分割为训练集和验证集;在训练集上分别训练一个均衡的分类模型和一个非均衡的分类模型;保留在验证集上分类准确度最高的n个均衡的分类模型和n个非均衡的分类模型;
B: 利用步骤A中的n个均衡数据流分类模型和n个非均衡数据流分类模型对验证集中的数据记录进行分类并进行可信度评估,最终得出优化的可信度阈值δ;
C: 使用步骤A中的n个均衡数据流分类模型和n个非均衡数据流分类模型对于测试数据集中的每一个数据记录进行分类,并输出最终分类结果。
2.根据权利要求1所述的双度集成的不均衡数据流分类算法,其特征在于:所述步骤B中使用数据驱动的方法在验证集上确定优化的可信度阈值δ,具体方法如下:用m1表示分类的准确度,m2表示分类的灵敏度和特异度的几何均值;初始化变量d=1.0, t=0, 在验证数据集上;循环执行如下操:从0开始,每次将δ的值增加0.02, 并验证该δ值对应的点(m1,m2)的值与点(1,1)的距离l;如果该l比d还要小,则 d = l, t = δ;该循环运行至δ= 1时结束; 循环结束后,将t的当前值赋给δ, 此时的δ值即为优化的可信度阈值。
3.根据权利要求1所述的双度集成的不均衡数据流分类算法,其特征在
于:所述的步骤C中对测试数据集中的每条数据记录u进行分类预测包括以下几个步骤:C1: 首先集成所保留的n个均衡数据流分类模型并对u进行分类预测;
C2:计算对u的分类结果的可信度r(u),可信度r(u)大于优化的可信度阈值δ的分类结果直接返回给用户;
C3:如果对u的分类可信度低r(u)与优化的可信度阈值δ,则集成n个非均衡的分类模型对u进行再次分类,并返回最终分类结果。
4.根据权利要求1-3所述的双度集成的不均衡数据流分类算法,其特征在于:所述的步骤A中训练均衡数据流分类模型包括以下几个步骤:A11:对训练集进行简单随机抽样,样本大小为记为s, 抽样时不区分样本的类别,该样本记为T1;
A12:使用分类算法,在T1上训练分类模型,称该分类模型为1个均衡数据流分类模型;
A13:测试已有的均衡数据流分类模型,如果均衡数据流分类模型的总数超过n,则在验证集上逐一测试已有均衡数据流分类模型,并淘汰分类准确度最差的均衡数据流分类模型, 直到剩余均衡数据流分类模型的总数等于n。
5.根据权利要求4所述的双度集成的不均衡数据流分类算法,其特征在
于:所述的步骤A中训练1个非均衡数据流分类模型包括以下几个步骤:
A21:收集各个数据流记录块的训练集中的少数类数据记录,并放入少数类记录容器中,如果少数类记录容器中数据记录的总数超过规定数目s,则淘汰该块中最老的数据记录,直到剩余数据记录的总数等于s;
A22:抽样时,首先对Tr进行简单随机抽样,样本大小为s/2,抽样时不区分样本的类别;然后对少数类记录容器中的数据记录进行简单随机抽样,样本大小也为s/2,将两次抽样数据合并在一起形成最新的抽样数据,记为T2;
A23:使用分类算法,在T2上训练分类模型,称该分类模型为1个非均衡数据流分类模型;
A24:测试已有的非均衡数据流分类模型:如果非均衡数据流分类模型的总数超过n,则在Va上逐一测试已有非均衡数据流分类模型,并淘汰分类准确度最差的非均衡数据流分类模型, 直到剩余的非均衡数据流分类模型的总数等于n。