1.一种隐多项式朴素贝叶斯文本分类方法,包括训练阶段和利用训练阶段训练得到的模型进行分类的分类阶段,其特征在于,训练阶段包含如下步骤:(1-1)利用以下公式计算训练文档集D中每个类别c的先验概率p(c):其中,训练文档集D为一个已知的文档集,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为训练文档集D中所有单词的数目;n是训练文档集D中的文档数目,s是文档的类别数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(1-2)利用以下公式计算给定类别情况下每个单词的条件概率p(wi|c):其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率;
(1-3)利用以下公式计算训练文档集D中每个单词wt的信息增益率:其中,GainRatio(D,wt)表示单词wt划分训练文档集D的信息增益率,Gain(D,wt)表示单词wt划分训练文档集D的信息增益,SplitInfo(D,wt)表示训练文档集D关于单词wt的分裂信息;
(1-4)利用以下公式计算训练文档集D中的所有单词的平均信息增益率:(1-5)利用以下公式计算训练文档集D中每个单词wt的权值Wt,模型训练完毕:
2.根据权利要求1所述的隐多项式朴素贝叶斯文本分类方法,其特征在于,步骤(1-3)中:Gain(D,wt)通过以下公式计算:
其中,|Dv|是训练文档集D中单词wt的取值为v的文档数目, v=0表示没有出现单词wt, 表示出现单词wt,|D|=n;Entropy(D)是训练文档集D的熵,通过以下公式计算:其中,C是类标记的集合,c是C中的一个类标记,pc是训练文档集D中类别为c的概率;pc通过以下公式计算得到:其中,n是训练文档集D中的文档数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
SplitInfo(D,wt)通过以下公式计算得到:
3.根据权利要求1所述的隐多项式朴素贝叶斯文本分类方法,其特征在于,分类阶段包含如下步骤:(2-1)对于待分类文档d中出现的每个单词wi,i=1,2,…m,以及待分类文档d中除单词wi以外的每一个单词wt,t=1,2,…,m∧t≠i,在训练文档中D中选择出现单词wt的文档组成新的文档子集Dwt;其中,三角符号∧表示并且;
(2-2)对于每一个可能的类标记c,基于文档子集Dwt,利用以下公式计算条件概率p(wi|wt,c):其中,n是训练文档集D中的文档数目,m为训练文档集D中单词的数目,fjt表示训练文档集D中第j篇文档中出现单词wt的频率,fjt>0表示单词wt出现在第j篇文档中,fji表示训练文档集D中第j篇文档中出现单词wi的频率,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;
(2-3)利用以下公式计算p(wi|whi,c)
其中,ft是待分类文档d中第t个单词的频率;
(2-4)基于已经计算好的p(c)和p(wi|whi,c),利用以下公式来预测待分类文档d的类标记c(d):其中,fi是待分类文档d中第i个单词的频率。
4.一种隐多项式朴素贝叶斯文本分类装置,其特征在于,具备计算机存储介质,所述计算机存储介质内存储有计算机可执行指令,所述计算机可执行指令用于实现如权利要求1-
3任一项所述的隐多项式朴素贝叶斯文本分类方法。