1.一种生成同义词对齐词典的方法,其特征在于,所述方法包括:
根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息;
根据所述替换决策树模型对已有的同义词对齐词典进行过滤,生成第一同义词对齐词典。
2.根据权利要求1所述的方法,其特征在于,所述替换决策树模型中的叶节点表示替换的优劣,每个非叶节点对应于一个所述预定特征,所述非叶节点的每个分支分别表示所述非叶节点对应的预定特征的特征值满足预定条件和不满足所述预定条件。
3.根据权利要求2所述的方法,其特征在于,所述已有的对齐词典中的替换词条信息包括基于统计对齐获得的原词、替换词以及替换统计数据。
4.根据权利要求3所述的方法,其特征在于,所述根据所述替换决策树模型对已有的对齐词典进行过滤,生成第一同义词对齐词典的处理包括:根据所述已有的对齐词典中的替换词条的替换统计数据,计算所述替换词条的所述多个预定特征的特征值;
针对所述已有的对齐词典中的替换词条,根据所述替换词条的所述多个预定特征的特征值以及所述替换决策树模型,删除被确定为劣的替换词条,以生成第一同义词对齐词典。
5.根据权利要求4所述的方法,其特征在于,所述替换统计数据包括:替换词条的共现次数信息和对齐次数信息,所述根据所述已有的对齐词典中的替换词条的替换统计数据,计算所述替换词条的所述多个预定特征的特征值的处理包括:根据所述已有的对齐词典中的替换词条的共现次数信息和对齐次数信息计算所述替换词条的所述多个预定特征的特征值。
6.根据权利要求1~5中任一项所述的方法,其特征在于,所述方法还包括:将所述第一同义词对齐词典与已有的高置信度同义词对齐词典合并,生成第二同义词对齐词典。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据所述第二同义词对齐词典中的替换词条的对齐次数信息,获得所述第二同义词对齐词典中的替换词条的替换权值。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第二同义词对齐词典中的替换词条的对齐次数信息,获得所述第二同义词对齐词典中的替换词条的替换权值包括:针对所述第二同义词对齐词典中每条替换词条,所述替换词条的替换权值等于所述替换词条的对齐次数除以所述第二同义词对齐词典中原词与所述替换词条的原词相同的替换词条中最大的对齐次数。
9.一种生成同义词对齐词典的装置,其特征在于,所述装置包括:
替换决策树模型生成单元,用于根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息;
词典过滤单元,用于根据所述替换决策树模型对已有的同义词对齐词典进行过滤,生成第一同义词对齐词典。
10.根据权利要求9所述的装置,其特征在于,所述替换决策树模型中的叶节点表示替换的优劣,每个非叶节点对应于一个所述预定特征,所述非叶节点的每个分支分别表示所述非叶节点对应的预定特征的特征值满足预定条件和不满足所述预定条件。
11.根据权利要求10所述的装置,其特征在于,所述已有的对齐词典中的替换词条信息包括基于统计对齐获得的原词、替换词以及替换统计数据。
12.根据权利要求11所述的装置,其特征在于,所述词典过滤单元包括:特征值计算单元,用于根据所述已有的对齐词典中的替换词条的替换统计数据,计算所述替换词条的所述多个预定特征的特征值;
词典过滤子单元,用于针对所述已有的对齐词典中的替换词条,根据所述替换词条的所述多个预定特征的特征值以及所述替换决策树模型,删除被确定为劣的替换词条,以生成第一同义词对齐词典。
13.根据权利要求12所述的装置,其特征在于,所述替换统计数据包括:替换词条的共现次数信息和对齐次数信息,所述特征值计算单元根据所述已有的对齐词典中的替换词条的共现次数信息和对齐次数信息计算所述替换词条的所述多个预定特征的特征值。
14.根据权利要求9~13中任一项所述的装置,其特征在于,所述装置还包括:词典合并单元,用于将所述第一同义词对齐词典与已有的高置信度同义词对齐词典合并,生成第二同义词对齐词典。
15.根据权利要求14所述的装置,其特征在于,所述装置还包括:替换权值获取单元,用于根据所述第二同义词对齐词典中的替换词条的对齐次数信息,获得所述第二同义词对齐词典中的替换词条的替换权值。
16.根据权利要求15所述的装置,其特征在于,所述替换权值获取单元针对所述第二同义词对齐词典中每条替换词条,计算所述替换词条的替换权值等于所述替换词条的对齐次数除以所述第二同义词对齐词典中原词与所述替换词条的原词相同的替换词条中最大的对齐次数。