1.一种基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,在所述的基于贝叶斯统计学习的医学古汉语句子切分方法对句子识别的朴素贝叶斯方法的基础上,对于该方法所需的特征属性项再添加二元组与三元组的为特征属性或者进行一元组、二元组、三元组多样特征属性组合得到多组实验数据结果,最后得出最佳模型;进而完成医学古汉语句子切分任务。
2.如权利要求1所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,所述基于贝叶斯统计学习的医学古汉语句子切分方法,具体包括:对一定量的数据文本进行手工标注:
将手工标注的数据文本用来训练朴素贝叶斯模型的分类器;将训练数据集通过朴素贝叶斯方法计算得到断句分类器;根据分类器的数据值,通过再朴素贝叶斯模型将新的数据集进行断句处理,最终得到分句结果;在实验最后,提出对于朴素贝叶斯的医学古汉语文本断句性能指标,以及分析数据结果;
使用朴素贝叶斯分类器将剩余文本进行断句标注处理,对实验数据结果进行分析;
使用提取标注的结果内容按照处理任务语料库所需的文本规则,建立医学古汉语文本的句子识别语料。
3.如权利要求1所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,对一定量的数据文本进行手工标注,具体包括:针对处理医学古文本中,句子识别的转化句子的标注;直接关注句子的开头和结尾处,之后在使用预先规定好的记号,进行标签标记;
标签内为有效句子,标签外则无效;
制定文本处理的断句规则:提出的表示句子“开始”和“结尾”的特征是如何得到的,再接着,使用文本句子特征提取方法,制定文本处理的断句规则;
表征句子结束的归纳:根据标点的特性明确的说明对于句子的结束位置所对应的有符号标记,然而在根据这些特点对实际内容进行分析;
表征句子开始的归纳:分析开始特征时优先分析开始特征是否带有一些符号特征,从而在根据这些特征对句子开始像句子结束一样快速标记;
原文部分内容缺失:文本内容有所缺失根据原文本上下文关系,以及查阅资料后得出的一些断句规则。
4.如权利要求2所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,数据集包括:将中国古代医学名著作为数据分析的基础数据库,采用随机抽取章节的方式提取了40%的章节作为实验数据集,然后人工的方式根据之前所定下的规则对其进行开始和结尾标注处理;标注完成以后将数据集按照不同比例分配进行实验;最后,测试实验模型是否有过拟合现象的出现;
所述性能指标的评估,包括:
利用标注的查准率LP、查全率LR和F1值LF用于评估断句三种标签的性能,对实验方法的性能进行有效的判断;
对标注间隙的查准率(LP)、查全率(LR)定义如下:
在实际应用中,只要一个值较高,另一个值就必然有所牺牲;所以在对一个分类器进行评估的时候,采用LF:其中两个值的调和平均会更加接近两个数中较小的那个;因此,如果LF很高的话,那么LP和LR都会很高;
所述过拟合现象:在调试一个统计模型时,使用参数过多,当可选择的参数的自由度超过数据集中所包含内容时,会减少或破坏模型一般化的能力更甚于适应训练数据集;过拟合不只取决于参数个数和数据集,也跟模型架构与数据集的一致性有关。
5.如权利要求1所述的基于贝叶斯统计学习的医学古汉语句子切分方法,其特征在于,所述朴素贝叶斯的方法,包括:首先,朴素贝叶斯模型是基于贝叶斯准则与特征条件独立假设的分类的;而分类任务被看作为给定一个测试样例d后估计它的后验概率,计算式表达为Pr=(C=cj|d);
接着,实验分析哪个类别cj对应概率最大,再将这个类别便赋予样例d;然后,认为在数据集D中,令其中各元素为用离散值表示的属性集合,令C为具有不通知的类别属性;再接着,给定一个测试样例d,得到其对应属性值,其表达式如下:d=
由于预测类别是cj,那么Pr(C=cj|A1=a1,…,A|A|=a|A|)最大;
cj被称为最大后验概率MAP假设;根据贝叶斯准则,其中在此被表示为:其中Pr(C=cj)是类别;cj的先验概率,用于训练样本估计;
对于Pr(A1=a1,…,A|A|=a|A||C=cj),展开得到:Pr(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)Pr(A2=a2,…,A|A|=a|A||C=cj);
再接着第二项Pr(A2=a2,…,A|A|=a|A||C=cj)递归展开;假设所有属性都是条件独立于类别C=cj,即准确的表示:Pr(A1=a1|A2=a2,…,A|A|=a|A|,C=cj)=Pr(A1=a1|C=cj),同理可推,得到:
之后,再从训练数据中统计的得到先验概率Pr(C=cj)和条件概率Pr(Ai=ai|C=cj),而这些的计算如下:所以根据上面公式推导出,在给定测试样例的情况下,通过计算下面的式子来得出最有可能的类别: