欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019103385691
申请人: 中国地质大学(武汉)
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种隐多项式朴素贝叶斯文本分类方法,包括训练阶段和利用训练阶段训练得到的模型进行分类的分类阶段,其特征在于,训练阶段包含如下步骤:(1-1)利用以下公式计算训练文档集D中每个类别c的先验概率p(c):其中,训练文档集D为一个已知的文档集,训练文档集D中的任意一篇文档d表示为单词向量形式d=<w1,w2,...wm>,其中wi为文档d中的第i个单词,m为训练文档集D中所有单词的数目;n是训练文档集D中的文档数目,s是文档的类别数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;

(1-2)利用以下公式计算给定类别情况下每个单词的条件概率p(wi|c):其中,fji表示训练文档集D中第j篇文档中出现单词wi的频率;

(1-3)利用以下公式计算训练文档集D中每个单词wt的信息增益率:其中,GainRatio(D,wt)表示单词wt划分训练文档集D的信息增益率,Gain(D,wt)表示单词wt划分训练文档集D的信息增益,SplitInfo(D,wt)表示训练文档集D关于单词wt的分裂信息;

(1-4)利用以下公式计算训练文档集D中的所有单词的平均信息增益率:(1-5)利用以下公式计算训练文档集D中每个单词wt的权值Wt,模型训练完毕:

2.根据权利要求1所述的隐多项式朴素贝叶斯文本分类方法,其特征在于,步骤(1-3)中:Gain(D,wt)通过以下公式计算:

其中,|Dv|是训练文档集D中单词wt的取值为v的文档数目, v=0表示没有出现单词wt, 表示出现单词wt,|D|=n;Entropy(D)是训练文档集D的熵,通过以下公式计算:其中,C是类标记的集合,c是C中的一个类标记,pc是训练文档集D中类别为c的概率;pc通过以下公式计算得到:其中,n是训练文档集D中的文档数目,cj是第j篇文档的类标记,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;

SplitInfo(D,wt)通过以下公式计算得到:

3.根据权利要求1所述的隐多项式朴素贝叶斯文本分类方法,其特征在于,分类阶段包含如下步骤:(2-1)对于待分类文档d中出现的每个单词wi,i=1,2,…m,以及待分类文档d中除单词wi以外的每一个单词wt,t=1,2,…,m∧t≠i,在训练文档中D中选择出现单词wt的文档组成新的文档子集Dwt;其中,三角符号∧表示并且;

(2-2)对于每一个可能的类标记c,基于文档子集Dwt,利用以下公式计算条件概率p(wi|wt,c):其中,n是训练文档集D中的文档数目,m为训练文档集D中单词的数目,fjt表示训练文档集D中第j篇文档中出现单词wt的频率,fjt>0表示单词wt出现在第j篇文档中,fji表示训练文档集D中第j篇文档中出现单词wi的频率,δ(cj,c)表示一个二元函数,当它的两个参数相同时值为1否则为0;

(2-3)利用以下公式计算p(wi|whi,c)

其中,ft是待分类文档d中第t个单词的频率;

(2-4)基于已经计算好的p(c)和p(wi|whi,c),利用以下公式来预测待分类文档d的类标记c(d):其中,fi是待分类文档d中第i个单词的频率。

4.一种隐多项式朴素贝叶斯文本分类装置,其特征在于,具备计算机存储介质,所述计算机存储介质内存储有计算机可执行指令,所述计算机可执行指令用于实现如权利要求1-

3任一项所述的隐多项式朴素贝叶斯文本分类方法。