欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020100972916
申请人: 中国地质大学(武汉)
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于特异性的词频加权方法,其特征在于:

对于一个已知的训练文档集D,训练文档集D中的任意一篇文档d表示为单词向量形式,其中ti为文档d中的第i个单词,m为训练文档集D中不同单词的数目;对每一个单词ti,利用以下公式计算单词ti区分文档类别的特异性,并以此作为单词ti的词频权值Wi:其中,i=1,2,…,m,j=1,2,…,q,ti表示单词,m表示单词数目,cj表示类别,q表示文档的类别的数目,d(ti,cj)表示单词ti和类别cj都出现的文档数, 表示单词ti和类别cj都不出现的文档数, 表示单词ti出现但类别cj不出现的文档数, 表示单词ti不出现但类别cj出现的文档数;d(ti)表示单词ti出现的总文档数, 表示单词ti不出现的总文档数,d(cj)表示类别cj出现的总文档数, 表示类别cj不出现的总文档数。

2.一种依托于权利要求1所述词频加权方法的多项式朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)通过以下公式计算得到:其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ek是训练文档集D中第k篇文档的类标记,n、q和ek均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;

第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量。

3.一种依托于权利要求1所述词频加权方法的补集朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:其中,fi表示单词ti在文档d中出现的频率,为已知量; 通过以下公式计算得到:其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ek是训练文档集D中第k篇文档的类标记,n、q和ek均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;

第二条件概率 通过以下公式计算得到:

4.一种依托于权利要求1所述词频加权方法的多项式与补集相结合的朴素贝叶斯文本分类方法,其特征在于:通过以下公式对文档d进行分类:其中,fi表示单词ti在文档d中出现的频率,为已知量;P(cj)和 分别通过以下公式计算得到:其中,n是训练文档集D中的文档数目,q是文档的类别的数目,ek是训练文档集D中第k篇文档的类标记,n、q和ek均为已知量,δ(α,β)是一个二值函数,当α=β时取值为1,否则取值为0;

第一条件概率P(ti|cj,W1,W2,…,Wm)通过以下公式计算得到:其中,fki表示训练文档集D中第k篇文档中出现单词ti的频率,fki为已知量;

第二条件概率 通过以下公式计算得到: