1.一种基于特异性的词频加权方法,其特征在于:
对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式
2.一种依托于权利要求1所述词频加权方法的多项式朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)通过以下公式计算得到:其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ek是训练文档集D中第k篇文档的类标记,n、q和ek均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量。
3.一种依托于权利要求1所述词频加权方法的补集朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:其中,fi表示单词ti在文档d中出现的频率,为已知量; 通过以下公式计算得到:其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ek是训练文档集D中第k篇文档的类标记,n、q和ek均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第二条件概率 通过以下公式计算得到:
4.一种依托于权利要求1所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)和 分别通过以下公式计算得到:其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ek是训练文档集D中第k篇文档的类标记,n、q和ek均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;
第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量;
第二条件概率 通过以下公式计算得到: