1.一种特征对齐中文分词方法,其特征在于,包括以下步骤:
101、从标记数据和无标记数据中抽取二元词的特征;
102、通过EMD地球移动距离方法将标记数据和无标记数据进行特征对齐;
103、通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率;
104、从分类器的结果中抽取一部分二元词与步骤101标记数据的二元词整合作为条件随机场的特征并进行训练;
105、通过条件随机场构建分词模型,对无标记数据进行序列标注分词。
2.根据权利要求1所述的一种特征对齐中文分词方法,其特征在于,所述步骤101从标记数据和无标记数据中抽取二元词的特征,具体为:S1011、首先对抽取的二元词进行预处理,在标记数据和无标注数据中的二元词中,将频数为1或者带有标点符号的二元词去掉;
S1012、统计当前二元词在文档中出现的次数;
S1013、计算当前二元词的左字和右字的单字相乘概率,公式为:P单字相乘=P(A)*P(B),其中P(A)表示二元词左字出现的概率,P(B)表示二元词右字出现的概率;
S1014、计算当前二元词的左字和右字之间的互信息,公式为: MI(AB)表示当前二元词的互信息,P(AB)表示当前二元词出现的概率,P(A).表示二元词左字出现的概率,P(B)表示二元词右字出现的概率;
S1 01 5 、计 算当 前二 元词 和 它前面 的 字之 间的 信息 熵 ,公式 为 :P(CAB|AB).表示在当前二元词AB的情况下C出现在AB前面的概率,C表示所有出现在当前二元词AB前面的字的集合;
S1 01 6 、计 算当 前二 元词 和 它后面 的 字之 间的 信息 熵 ,公式 为 :P(ABC|AB)表示在当前二元词AB的情况下C
出现在AB后面的概率,C表示所有出现在当前二元词AB后面的字的集合;
S1017、统计当前二元词前面出现标点符号的次数;
S1018、统计当前二元词后面出现标点符号的次数;
S1019、统计当前二元词前面出现数字的次数;
S10110、统计当前二元词后面出现数字的次数;
S10111、判断当前二元词左字是否为数字;
S10112、判断当前二元词右字是否为数字;
S10113、统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数;
S10114、统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数;
S10115、统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;
S10116、统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数;
S10117、统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;
S10118、统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数;
S10119、统计当前二元词出现在句首的次数;
S10120、统计当前二元词出现在句末的次数。
3.根据权利要求2所述的一种特征对齐中文分词方法,其特征在于,所述步骤102需要进行特征对齐的13项特征为:统计当前二元词在文档中出现的次数;
统计当前二元词前面出现标点符号的次数;统计当前二元词后面出现标点符号的次数;统计当前二元词前面出现数字的次数;统计当前二元词后面出现数字的次数;统计当前二元词前面的两个字作为字典词或者字典词的一部分出现的次数;统计当前二元词后面的两个字作为字典词或者字典词的一部分出现的次数;统计当前二元词前面的一个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词右字和二元词后面的一个字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词前面的两个字和二元词左字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词右字和二元词后面的两个字组成的词作为字典词或者字典词的一部分出现的次数;统计当前二元词出现在句首的次数;统计当前二元词出现在句末的次数。
4.根据权利要求3所述的一种特征对齐中文分词方法,其特征在于,所述步骤102通过EMD地球移动距离方法将标记数据和无标记数据进行特征对齐,具体为:S1021、假设来自训练集P的特征有m个,其中 pi代表了训练集值, 代表训练集值的权重,测试集 有n个特征,qn代表测试集的值, 表示测试集的权重,用D=[di,j]表示簇pi和qj之间的地表距离,目的是为了找到一个从pi到qj的流量F=[fi,j],使得总成本最小S1022、将成本距离定义为欧氏距离的平方,这样的最小成本策略更加符合预期的效果。
5.根据权利要求4所述的一种特征对齐中文分词方法,其特征在于,所述步骤103通过分类器xgboost训练经过特征对齐后的标记数据的特征,从而预测无标记数据中二元词成词的概率,具体为:S1031、特征对齐之后,标注集和无标注数据集中的二元词都可以用19维的向量表示,如果标注集的二元词在标注集的字典中出现,就将它的y标记为1,否则标记为0。利用xgboost分类器对标注集训练并对未标记数据的二元词进行成词概率的预测;
S1032、得到无标记数据集二元词的成词概率后,将概率进行降序排列,通过交叉验证的方法设定阈值从中提取出一定的二元词作为分类的结果,即分类得到的无标记二元新词。
6.根据权利要求5所述的一种特征对齐中文分词方法,其特征在于,所述步骤S1032取前15%将序排列的二元词作为分类的结果,即需要从无标记数据中得到的二元新词。
7.根据权利要求5所述的一种特征对齐中文分词方法,其特征在于,所述步骤104从分类器的结果中抽取一部分二元词与标记数据的二元词整合作为条件随机场的特征并进行训练,具体为:S1041、将分类器得到的二元新词和标记数据中的二元词融合成新的词典;
S1042、对处理成序列标注的标记数据和未标记数据进行打标,如果当前字和下一个字在二元词字典中,则当前字特征列就标记为1;否则标记为0。
8.根据权利要求5所述的一种特征对齐中文分词方法,其特征在于,所述步骤105通过条件随机场构建分词模型,对无标记数据进行序列标注分词,具体包括:将标记数据和无标记数据处理成序列标注模型,通过得到的新的词典给序列标注模型赋予特征,如果当前字和下一个字组成的二元词出现在新的字典当中,就在当前字的特征列标1,否则标0,通过条件随机场构建分词模型。