1.基于改进特征评估函数的贝叶斯垃圾邮件过滤方法,其特征在于,步骤如下:
1)对训练邮件集进行预处理:将邮件分为邮件头部和正文部分两个子文本集S1,S2,在其中分别进行分词,组成两个特征项集合T1,T2;
2)分别在两个特征集T1,T2中使用停用词表删除介词、代词、副词、助词,连接词以及词频低于给定的阈值p的词语,处理后的特征项集合记为T1’,T2’;
3)分别在特征项集合T1’,T2’中运用改进的特征评估函数计算出互信息值MI(tk)’:
3a)设特征向量集合T={tk,k=1,2,…,n},在网络文件文本库中获得训练集类别集合C={cj,i=1,2,…,r};
3b)利用公式(1)计算得出修正系数λ:
其中, 表示特征项tk在cj里的词频数;
3c)利用公式(2)计算得出MI(tk):
其中,P(tk|cj)为类cj内含有tk的文本概率,P(tk)为含有tk的文本在训练集类别集合里出现的概率,P(cj)为训练集类别集合里属于类别cj的文本出现概率;
3d)利用公式(3)得出tk基于训练集的互信息值MI(tk)’:其中,βi(i=2)代表邮件头部和正文部分两个子集位置的不同权重,β1代表邮件头部的权重,β2代表正文部分的权重,且应满足β1>β2,β1+β2=1;
4)在训练集内,计算出特征项tk相应的互信息值MI(tk),并对其按从大到小的顺序进行排序,选择前n个值对应的特征项用于训练集的表示,得出特征属性和训练样本;
5)运用贝叶斯分类器对测试样本进行垃圾邮件过滤,贝叶斯公式如下:其中Wi代表类别,其中W1代表垃圾邮件,W2代表正常邮件,Xj为待分类的文本,计算垃圾邮件和正常邮件在(4)中所得的训练样本中的出现频率P(Wi)及每个特征项划分对每个类别的条件概率估计P(Xj|Wi),得出P(Wi|Xj)即在特征项Xj出现的情况下邮件是垃圾邮件或者正常邮件的概率,生成贝叶斯分类器,再对测试样本即可使用生成的分类器计算垃圾邮件P(W1|Xj)和正常邮件P(W2|Xj)的概率,若有P(W1|Xj)