1.一种分词训练集的生成方法,其特征在于,包括:获取训练语料,并采用不同的分词器分别对相同的训练语料进行分词,得到对应不同分词器的分词结果;
将所述分词结果划分为精确匹配的分词结果和非精确匹配的分词结果;
根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集。
2.根据权利要求1所述的方法,其特征在于,所述非精确匹配的分词结果包括:粒度不同的分词结果和歧义错误的分词结果,所述根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集,包括:在获取的训练语料中,删除歧义错误的分词结果对应的训练语料,得到保留的训练语料,并获取所述保留的训练语料对应的分词结果;
在所述保留的训练语料对应的分词结果中,选择样本词条,并由所述样本词条组成样本训练集;
在所述样本训练集内,对粒度不同的分词结果进行降噪处理,得到分词训练集。
3.根据权利要求2所述的方法,其特征在于,所述在所述样本训练集内,对粒度不同的分词结果进行降噪处理,得到分词训练集,包括:对所述样本训练集进行模型训练,生成多个特征函数,并获取每个特征函数的权重;
计算每个特征函数的模型样本期望差,根据每个特征函数的权重和所述模型样本期望差,确定每个特征函数的加权期望差,并根据所述加权期望差对所述特征函数进行排序;
根据排序后的特征函数,对粒度不同的分词结果进行修正。
4.根据权利要求3所述的方法,其特征在于,所述在所述样本训练集内,对粒度不同的分词结果进行降噪处理,得到分词训练集,还包括:判断是否需要继续修正;
如果需要,重新进行模型训练以及修正;
如果不需要,将修正后的样本训练集内的词条组成分词训练集。
5.根据权利要求3或4所述的方法,其特征在于,当按照加权期望差从大到小的顺序排序时,所述根据排序后的特征函数,对粒度不同的分词结果进行修正,包括:在样本训练集内,对应粒度不同的分词结果,将排序在前的特征函数对应的词条,统一替换为排序在后的特征函数对应的词条。
6.根据权利要求2所述的方法,其特征在于,所述在所述保留的训练语料对应的分词结果中,选择样本词条,包括:在所述保留的训练语料对应的分词结果中,选择出现频率大于预设值的词条,确定为样本词条。
7.一种分词训练集的生成装置,其特征在于,包括:分词模块,用于获取训练语料,并采用不同的分词器分别对相同的训练语料进行分词,得到对应不同分词器的分词结果;
划分模块,用于将所述分词结果划分为精确匹配的分词结果和非精确匹配的分词结果;
生成模块,用于根据所述分词结果,对所述非精确匹配的分词结果进行降噪处理,得到分词训练集。
8.根据权利要求7所述的装置,其特征在于,所述非精确匹配的分词结果包括:粒度不同的分词结果和歧义错误的分词结果,所述生成模块包括:第一降噪模块,用于在获取的训练语料中,删除歧义错误的分词结果对应的训练语料,得到保留的训练语料,并获取所述保留的训练语料对应的分词结果;
选择模块,用于在所述保留的训练语料对应的分词结果中,选择样本词条,并由所述样本词条组成样本训练集;
第二降噪模块,用于在所述样本训练集内,对粒度不同的分词结果进行降噪处理,得到分词训练集。
9.根据权利要求8所述的装置,其特征在于,所述第二降噪模块包括:第一单元,用于对所述样本训练集进行模型训练,生成多个特征函数,并获取每个特征函数的权重;
第二单元,用于计算每个特征函数的模型样本期望差,根据每个特征函数的权重和所述模型样本期望差,确定每个特征函数的加权期望差,并根据所述加权期望差对所述特征函数进行排序;
第三单元,用于根据排序后的特征函数,对粒度不同的分词结果进行修正。
10.根据权利要求9所述的装置,其特征在于,所述第二降噪模块还包括:第四单元,用于判断是否需要继续修正;如果需要,触发重新进行模型训练以及修正;
第五单元,用于如果不需要,将修正后的样本训练集内的词条组成分词训练集。
11.根据权利要求9或10所述的装置,其特征在于,当按照加权期望差从大到小的顺序排序时,所述第三单元具体用于:在样本训练集内,对应粒度不同的分词结果,将排序在前的特征函数对应的词条,统一替换为排序在后的特征函数对应的词条。
12.根据权利要求8所述的装置,其特征在于,所述选择模块具体用于:在所述保留的训练语料对应的分词结果中,选择出现频率大于预设值的词条,确定为样本词条。