欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 201711444997X
申请人: 成都信息工程大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于部分监督学习的中文概括性文本切分方法,其特征在于,所述基于部分监督学习的中文概括性文本切分方法根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法进行分词;

所述短文本的特征包括:二元前后文信息,用于贴合短文本分词;

三元混合前后文,用于表达出每个空的信息;

所述部分监督学习用于在短文本分词中补齐参数。

2.如权利要求1所述的基于部分监督学习的中文概括性文本切分方法,其特征在于,所述基于部分监督学习的中文概括性文本切分方法具体包括:步骤一,进行特征选择,窗口大小设置为1到3,添加*和&作为开始与结束符:“***自然语言处理&&&”;提取“自然”之间空的窗口大小为o_p1_自,大小为二的后文表示为o_n2_然语;

步骤二,得到一个已标注好的少量“分词”类别数据集P和一个未标注的大量混合数据集M,M中包含了“分词”和“不分词”两个类别的所有数据;并引入部分监督学习。

3.如权利要求2所述的基于部分监督学习的中文概括性文本切分方法,其特征在于,所述朴素贝叶斯的分类方法包括:一个Blank集合B={b1,...,b2},每个“空”拥有前后文等特征信息用fn表示,fn来自与训练集中提取的所有特征集合F={f1,f2,...,fn},对于二分类定义一个类别集合C={c1,c2}其中c1表示“分词”类别,相对应c2表示“不分词”类别;为获得某个“空”最可能的分类结果需计算后验概率,根据贝叶斯定理有根据条件独立假设式(1)变形为:

选择拉普拉斯平滑公式变形为:

其中 表示特征f在“空”b中出现的次数除以类别c中特征的总次数;分母中的|V|表示特征的总数量。

4.如权利要求2所述的基于部分监督学习的中文概括性文本切分方法,其特征在于,部分监督学习方法包括:每两个字之间的空格都看作是一个单独的文档,将所有文档提前定义为两类:“分词”与“不分词”;

只标注一小部分的“分词”类别数据然后通过朴素贝叶斯方法进行似然估计和EM算法相结合不断迭代,直至最后训练出一个最优的分类器。

5.如权利要求2所述的基于部分监督学习的中文概括性文本切分方法,其特征在于,所述EM算法具体包括:首先将P中所有数据赋予c1类别并且在后来的迭代过程中P中数据标签永不改变;然后将M数据集中所有“空”赋予c2类别,此数据的类别将在迭代过程中不断改变;然后利用朴素贝叶斯训练一个初始的分类器initial-classifier,使用这个分类器对M数据集中数据进行分类将结果为c1的数据加入“分词”类别数据集seg中去,反之将c2结果加入“不分词”类别数据集non-seg中;接下来进入EM算法迭代过程,使用朴素贝叶斯算法通过P,seg,non-seg数据集重新建立一个新的分类器再对seg和non-seg进行分类直至收敛得到最终分类器。