1.基于两阶段随机森林算法的网站恶意用户预测方法,其特征是,包括步骤如下:步骤1、令用于训练预测网站恶意用户任务的两阶段随机森林的用户训练数据集中每一个样本权重为1/Q;
步骤2、在步骤1所确定的用户训练数据集中每一个样本权重的基础上,对用户训练数据集进行带权有放回抽样,得到αB个训练数据子集;
步骤3、对于步骤2所得到的αB个训练数据子集,使用每一个训练数据子集分别训练出一个基分类器决策树,这些基分类器决策树构成两阶段随机森林的第一阶段基分类器决策树;
步骤4、令用于训练预测网站恶意用户任务的两阶段随机森林的用户训练数据集中每一个样本权重为wq;其中
步骤5、在步骤4所确定的用户训练数据集中每一个样本权重的基础上,对用户训练数据集进行带权有放回抽样,得到(1‑α)B个训练数据子集;
步骤6、对于步骤4所得到的(1‑α)B个训练数据子集,使用每一个训练数据子集分别训练出一个基分类器决策树,这些基分类器决策树构成两阶段随机森林的第二阶段基分类器决策树;
步骤7、将步骤3所得到的第一阶段基分类器决策树和步骤6所得到的第二阶段基分类器决策树组成两阶段随机森林预测模型;
步骤8、将待预测的网站用户数据输入到步骤7所得到的两阶段随机森林预测模型中,并根据两阶段随机森林预测模型的每个基分类器决策树对待预测的网站用户数据的预测类别进行投票,最多票的类别即为该待预测的网站用户数据的最终类别,进而根据该待预测的网站用户数据的最终类别确定用户是否为网站恶意用户;
其中,Q表示用户训练数据集的样本数量;α表示给定的两阶段随机森林的第一阶段基分类器决策树的数量占两阶段随机森林的全部基分类器决策树的数量的比例,α∈(0,1);B表示两阶段随机森林的全部基分类器决策树的数量;vq表示样本xq在第一阶段基分类器决策树中分类错误次数,当样本xq在第一阶段基分类器决策树中分类错误次数为0时,vq=1。
2.根据权利要求1所述的基于两阶段随机森林算法的网站恶意用户预测方法,其特征是,步骤3和步骤6中,使用一个训练数据子集训练出一个基分类器决策树的过程如下:步骤1)计算当前训练数据子集的特征集中每个特征与类别标签集的对称不确定性,并将对称不确定性为0的特征从特征集中删除,得到当前初选特征集;
步骤2)计算当前初选特征集的每个特征与类别标签集的特征权重,并选择特征权重较大的前p个特征构成当前候选特征子集;
步骤3)先从当前训练数据子集选取包含当前候选特征子集中至少一个特征的样本构造当前保留数据子集;再分别使用线性判别分析法对当前保留数据子集进行降维,得到当前降维数据子集;
步骤4)在当前降维数据子集上使用Boolean测试计算划分超平面,并将所得到的划分超平面加入到备选划分超平面集中;
步骤5)对当前初选特征集进行更新,即从当前初选特征集中删除特征权重较小的γn个特征,并返回步骤2);
步骤6)重复执行步骤2)至步骤5)的迭代操作,直到步骤2)中当前初选特征集中的所有特征权重连续两次没有更新,或步骤5)中更新后的当前初选特征集中的特征数量小于等于p;
步骤7)计算备选划分超平面集中各个划分超平面的信息增益,并选择信息增益最大的划分超平面作为当前最优划分超平面,并使用当前最优划分超平面将当前训练数据子集划分为左右孩子节点的训练数据子集;
步骤8)对左右孩子节点的训练数据子集分别视为当前训练数据子集,并重复执行步骤
1)至7)的递归操作,直到当前训练数据子集中的预定比例的样本属于同一类或者递归次数大于设定的最大限制的深度;
其中,p表示设定值,γ表示给定的删除率,γ∈(0,1),n为特征集的特征数量。
3.根据权利要求2所述的基于两阶段随机森林算法的网站恶意用户预测方法,其特征是,步骤1)中,特征集的特征fi与类别标签集C的对称不确定性SU(fi,C)为:式中,MI(fi,C)表示特征集的特征fi与类别标签集C的互信思,H(fi)表示特征集的特征fi的香农信息熵,H(C)表示类别标签集C的香农信息熵,H(fi|C)表示特征集的特征fi与类别标签C的条件熵。
4.根据权利要求2所述的基于两阶段随机森林算法的网站恶意用户预测方法,其特征是,步骤2)中,初选特征集的特征fi与类别标签集C的特征权重w(fi,C)为:式中,SU(fi,C)表示初选特征集的特征fi与类别标签集C的对称不确定性;SU(fj,C)表示初选特征集的特征fj与类别标签集C的对称不确定性;PairScore(fi,fj,C)表示非负归一化信息交互增益, NIG(fi,
fj,C)表示初选特征集的特征fi和fj与类别标签集C的归一化信息交互增益,IG(fi,fj,C)表示初选特征集的特征fi和fj与类别标签集C的信息交互增益;N为非负归一化信息交互增益PairScore(fi,fj,C)的数量即IG(fi,fj,C)>0的数量;|F′|为初选特征集F′中特征个数。
5.根据权利要求2所述的基于两阶段随机森林算法的网站恶意用户预测方法,其特征是,步骤8)中,预定比例的取值范围为85%~100%。