欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020110195980
申请人: 青岛科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于分类器的中文文本分类方法,其特征在于,包括测试集文本D和训练集的文本类别集合C,将测试集文本D通过文本分类方法映射到训练集的文本类别集合C;其中D={d1,d2,…,dm},其中C={c1,c2,…,cn},m为文本数,n为文本类别数,具体处理步骤如下:

101)文本预处理步骤:将训练集的文本进行文本标记处理、分词、去除停用词,将处理后的文本通过统计做特征选择,进行特征降维得到训练集的文本类别集合C;

其中,统计采用特征项t与类别Ci的相互关联性进行排序统计,具体包括四种统计:属于类别Ci且包含特征项t的文本数集A,不属于类别Ci但包含特征项t的文本数集B,属于类别Ci但不包含特征项t的文本数集C,不属于类别Ci且不包含特征项t的文本数集D;Ci表示分词后去除相近分词的文本类别集合中的其中一个类别,i为类别标识,其小于等于分词后的分词数量;特征项t为具体的分词;

训练集中含有特征项t的文本总数集是A+B,不含有特征项t的文本总数集是C+D,类别Ci的文本数集是A+C,其他类别的文本数集是B+D,训练集文本总数集是N,且N=A+B+C+D,特征项t的概率表示为由此可得,特征项t与类别Ci的关联性值为:

2 2

若特征项t与类别Ci相互独立,AD‑CB=0,有X (t,ci)=0;如果X (t,ci)的值越大,就表明特征项t与类别Ci相互关系程度越大;AD表示根据特征项t正确判定文档属于Ci类的量化值,CB表示根据特征项t错误判定文档属于Ci类的量化值;

在统计排序时以其平均值作为比较,其平均值为如下公式:

统计排序以平均值从大到小进行排序,训练集的文本类别集合C从中,从统计排序由大到小选取一定数量的特征项;即将得出的每个特征项t的结果 按照选择排序算法从大到小排列,其中会出现,选取特征词第n个与第n+1个计算的结果相同,此时就需要对结果进行评测,并进行相应的调整调换,而且即使结果不同,其最后评测也会出现排在后面的高于排在前n个特征词的;因此需要根据评测调整,具体如下:由公式(2‑10)至公式(2‑12)可知,“消防”的 为426.37;其他关键词亦如此,从而可得到数据进行排列,选取需要数量的特征词作为训练集的的文本类别集合的特征项;

102)分类器步骤:将步骤101)处理后的数据由文本分类器处理,具体公式如下:公式(3)中分母P(x1,x2,…,xn)是常量,因此只需获得公式(3)中分子P(Ci)P(x1,x2,…,xn|Ci)的值,就能判定不同j值时,不同P(Ci|Dj)值间的大小关系;因此公式(3)则最终可表示为:当某一特征项出现在该文本中,就置权重为1,若未出现就置权重为0,测试文本作为事件,并且该事件为n重事件即在同样的条件下重复地、相互独立地进行的一种随机事件;用Bxt代表测试文档含有文本特征项t,则得到如下公式:在属于类Ci的情况下xj发生的概率用P(xj|Ci)表示,若特征项出现在测试文本中,则只需得到P(xj|Ci),否则需得到1‑P(xj|Ci);

条件概率1‑P(xj|Ci)的公式为:

在训练集中,若类别Ci中的所有文本都不含有特征项xj,则nij是0,从而P(xj|Ci)的值是

0,故需要采用加入平滑因子的方法,得如下公式:

103)测试与评价步骤:评估分类器的准确率、召回率、F1值、宏平均,调整训练集的文本类别集合C;

104)调整步骤:根据步骤103)的测评结果,调整选择的特征项,进行再次测试评估,直到达到预设效果。

2.根据权利要求1所述的一种基于分类器的中文文本分类方法,其特征在于:文本标记处理为用正则表达式去除文中的中文符号、数字和英文,去除中文符号的正则表达式可表示为:[^\\u4e00‑\\u9fa5\\w],去除数字和英文的正则表达式为:[a‑zA‑Z\\d],并用空格代替。

3.根据权利要求1所述的一种基于分类器的中文文本分类方法,其特征在于:采用MMSEG4J分词工具包进行分词;停用词为文本中出现多次并且与文本内容无关的词,将停用词整理到停用词表中,并在分词结束后将其删除。

4.根据权利要求1所述的一种基于分类器的中文文本分类方法,其特征在于:

准确率,也称查准率,获取测试集中有多少文本的分类结果是正确的,体现分类器分类的准确程度,记为P,具体公式如下:属于类别Ci且包含特征项t的文本数集A,即正确分类到Ci类的文本数;不属于类别Ci但包含特征项t的文本数集B,A+B即实际分类到Ci类的文本总数;

召回率,也称查全率,获取测试集中在类别Ci中的文本,可以被正确分类到类别Ci所占有的比重,展现出分类器分类的完备性,记为R,具体公式如下:属于类别Ci但不包含特征项t的文本数集C,A+C即所有应归为Ci类的文本;

F1值,也称综合分类率,是准确率P和召回率R的综合评估指标,具体公式如下:宏平均是对分类器的整体分类效果的评价,准确率和召回率的算术平均数就是宏平均,具体公式如下:其中,MacAvg_Precision表示准确率的宏平均,MacAvg_Recall表示召回率的宏平均,|C|表示训练集中包含的文本类别数,Pi表示类别Ci的准确率,Ri表示类别Ci的召回率。