1.一种用于数据标注的模型生成方法,其特征在于,包括:获取训练语料,并对应所述训练语料中的观察值建立限制性候选标记集;
选择特征模板,所述特征模板使得特征函数在观察值处的非零系数的个数与所述观察值对应的限制性候选标记集内的元素的个数相同;
根据所述限制性候选标记集和所述特征模板,构建格子;
根据所述限制性候选标记集和所述格子,生成用于数据标记的模型。
2.根据权利要求1所述的方法,其特征在于,所述训练语料中的观察值是汉字,所述限制性候选标记集内的元素是拼音。
3.根据权利要求1或2所述的方法,其特征在于,所述特征模板包括一阶特征模板,选择的一阶特征模板满足如下条件:使用所述特征模板得到的特征函数在限制性候选标记集内的元素处有非零系数,在其他标记处的系数为零。
4.根据权利要求1或2所述的方法,其特征在于,所述根据所述限制性候选标记集和所述特征模板,构建格子,包括:对应所述观察值,根据所述数据对应的限制性候选标记集,建立节点数据;
对应所述观察值,采用所述特征模板进行运算,得到对应的特征;
将所述节点数据,所述特征作为构建的格子中的参数,获取格子。
5.根据权利要求1或2所述的方法,其特征在于,所述根据所述限制性候选标记集和所述格子,生成用于数据标记的模型,包括:将所述观察值和所述限制性候选标记集作为所述模型的参数,并对应保存;
计算所述特征在所述节点数据上的系数,将所述限制性候选标记集内的元素作为候选标记,以及将所述特征、所述候选标记、所述系数作为所述模型的参数,并对应保存;
将选择的特征模板作为模型的参数进行保存。
6.一种数据标注方法,其特征在于,包括:获取预先保存的模型,所述模型采用如权利要求1-5任一项所述的方法生成;
获取待标注的观察序列;
根据所述模型,对所述待标注的观察序列进行标注。
7.根据权利要求6所述的方法,其特征在于,所述根据所述模型,对所述待标注的观察序列进行标注,包括:对应待标注的观察值,根据模型中的观察值与限制性候选标记集的对应关系,获取对应的限制性候选标记集,并根据限制性候选标记集建立节点数据;
对应待标注的观察值,根据模型中的特征模板运算得到特征,并在得到的特征中选择模型中已有的特征;
将所述节点数据作为候选标记,并根据模型中保存的候选标记、特征、系数的对应关系,确定与建立的节点数据和选择后的特征对应的候选标记的系数;
建立候选标记之间的转移关系;
根据所述转移关系,候选标记的系数,对待标注的观察序列进行标注。
8.一种用于数据标注的模型生成装置,其特征在于,包括:获取模块,用于获取训练语料,并对应所述训练语料中的观察值建立限制性候选标记集;
选择模块,用于选择特征模板,所述特征模板使得特征函数在观察值处的非零系数的个数与所述观察值对应的限制性候选标记集内的元素的个数相同;
构建模块,用于根据所述限制性候选标记集和所述特征模板,构建格子;
生成模块,用于根据所述限制性候选标记集和所述格子,生成用于数据标记的模型。
9.根据权利要求8所述的装置,其特征在于,所述训练语料中的观察值是汉字,所述限制性候选标记集内的元素是拼音。
10.根据权利要求8或9所述的装置,其特征在于,所述特征模板包括一阶特征模板,选择的一阶特征模板满足如下条件:使用所述特征模板得到的特征函数在限制性候选标记集内的元素处有非零系数,在其他标记处的系数为零。
11.根据权利要求8或9所述的装置,其特征在于,所述构建模块具体用于:对应所述观察值,根据所述数据对应的限制性候选标记集,建立节点数据;
对应所述观察值,采用所述特征模板进行运算,得到对应的特征;
将所述节点数据,所述特征作为构建的格子中的参数,获取格子。
12.根据权利要求8或9所述的装置,其特征在于,所述生成模块具体用于:将所述观察值和所述限制性候选标记集作为所述模型的参数,并对应保存;
计算所述特征在所述节点数据上的系数,将所述限制性候选标记集内的元素作为候选标记,以及将所述特征、所述候选标记、所述系数作为所述模型的参数,并对应保存;
将选择的特征模板作为模型的参数进行保存。
13.一种数据标注装置,其特征在于,包括:第一获取模块,用于获取预先保存的模型,所述模型采用如权利要求1-5任一项所述的方法生成;
第二获取模块,用于获取待标注的观察序列;
标注模块,用于根据所述模型,对所述待标注的观察序列进行标注。
14.根据权利要求13所述的装置,其特征在于,所述标注模块具体用于:对应待标注的观察值,根据模型中的观察值与限制性候选标记集的对应关系,获取对应的限制性候选标记集,并根据限制性候选标记集建立节点数据;
对应待标注的观察值,根据模型中的特征模板运算得到特征,并在得到的特征中选择模型中已有的特征;
将所述节点数据作为候选标记,并根据模型中保存的候选标记、特征、系数的对应关系,确定与建立的节点数据和选择后的特征对应的候选标记的系数;
建立候选标记之间的转移关系;
根据所述转移关系,候选标记的系数,对待标注的观察序列进行标注。