欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018111349419
申请人: 乐山师范学院
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:包括以下步骤:S1.构建朴素贝叶斯模型并进行增量式学习;

所述步骤S1包括以下子步骤:

S101.构建朴素贝叶斯模型对带有用户标注标签的样本进行识别;

S102.统一控制中心管理员将识别出的标签与用户标注的标签进行对比,如果是识别错误的,就将该样本及其正确标签加入到样本库;

S103.构建朴素贝叶斯加权模型;

S104.涉密特征空间中有新的涉密特征加入或者有旧的涉密特征密级发生变化时,基于涉密特征空间改变的进行增量学习;

S105.根据样本库和涉密特征库的变化进行增量式学习;

所述步骤S105包括:

特征权重在样本空间和特征空间两个维度实现增量学习:

其中TFi(wj)是文本特征wj在ci类别文本中出现的词频;count(wj∧ci)表示在类别ci中出现特征wj的样本数;TF′i(·)和count'(·)均表示在样本增量集上的统计结果;

基于特征权重的增量学习,得到P(ci)和P(wj|ci)的增量学习结果:P(ci)表示类别ci的先验概率,count(ci)表示属于类别ci的样本数,|C|、|D|和|W|分别表示类别空间、样本空间和特征空间的大小;P(wj|ci)表示在类别ci条件下,特征wj出现的概率;

S106.将学习后的模型写入到朴素贝叶斯模型中,并通知系统进行重新加载;

S2.加载增量式学习得到的朴素贝叶斯模型;

S3.读取待识别的文本;

S4.利用增量式学习得到的朴素贝叶斯模型对文本进行识别,并标注其对应的密级。

2.根据权利要求1所述的一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:还包括识别结果上传步骤:将步骤S4的识别结果上传到统一的控制中心。

3.根据权利要求1所述的一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:所述步骤S101包括:

第一、构建朴素贝叶斯模型:

设涉密文本的样本空间D由特征空间W={w1,w2,…,wn}和类别空间C={c1,c2,…,cm}组成;样本空间D即文本中包含的词,类别空间C即涉密文本的密级;对一个给定文本d={w1,w2,…,wl},朴素贝叶斯模型通过计算该文本属于各类别的后验概率,对其所属类别进行判别;哪个类别的后验概率大,该文本的检测结果就是对应的那个类别,判别式如下:其中P(ci)表示类别的先验概率;P(wj|ci)表示在类别ci条件下,特征wj出现的概率:其中|C|、|D|和|W|分别表示类别空间、样本空间和特征空间的大小;count(ci)表示属于类别ci的样本数,count(wj^ci)表示在类别ci中出现特征wj的样本数;

第二、利用朴素贝叶斯模型对带有用户标注标签的样本进行识别,得到各个样本的识别结果。

4.根据权利要求3所述的一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:所述步骤S103包括:

第一、构建朴素贝叶斯加权模型:

λj,i表示特征空间中第j个特征属于第i个类别的权重,按照Bell_Lapadula模型,每个特征都有4个权重,分别对应公开、秘密、机密和绝密:其中TFi(wj)是文本特征wj在ci类别文本中出现的词频;IDFi(wj)是改进的逆文档频率;

文本特征在类内文档数越大,在其它类中出现的文档数越小,则其权重越大。

5.根据权利要求4所述的一种基于改进朴素贝叶斯的涉密文本识别方法,其特征在于:所述步骤S104包括:

涉密特征空间中有新的涉密特征加入或者有旧的涉密特征密级发生变化时,新特征加入的情况:首先从与新特征同类别的其它特征中选择P(tj|ci)值最大的特征,将其所有信息均拷贝给新特征,按照步骤S103对所有特征在该类别下的权重λj,i和条件概率P(wj|ci)进行重新估计;然后从与新特征不同类别的其它特征中选择P(tj|ci)值最小的特征,将其所有信息均拷贝给新特征,然后按照步骤S103对所有特征在该类别下的权重λj,i和条件概率P(wj|ci)进行重新估计;

对于旧特征涉密特征密级发生变化的情况同理,首先从与变化特征同类别的其它特征中选择P(tj|ci)值最大的特征,将其所有信息均拷贝给变换特征,按照步骤S103对所有特征在该类别下的权重λj,i和条件概率P(wj|ci)进行重新估计;然后从与变换特征不同类别的其它特征中选择P(tj|ci)值最小的特征,将其所有信息均拷贝给变换特征,然后按照步骤S103对所有特征在该类别下的权重λj,i和条件概率P(wj|ci)进行重新估计。