欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021116083555
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种命名实体识别方法,包括:提取待识别文本中的特征,得到特征向量序列;

对所述特征向量序列进行全局命名实体识别,得到全局识别结果;

对所述特征向量序列进行局部命名实体识别,得到局部识别结果;以及基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列,其中,所述命名实体标签序列包括至少一个命名实体标签,所述待识别文本包括至少一个字符,所述至少一个命名实体标签与所述至少一个字符一一对应,所述命名实体标签用于表征所述字符是否为命名实体。

2.根据权利要求1所述的方法,其中,所述对所述特征向量序列进行全局命名实体识别,得到全局识别结果包括:

对所述特征向量序列进行全局置信度评价,确定全局标签置信度集合序列,作为所述全局识别结果,其中,所述全局标签置信度集合序列包括至少一个全局标签置信度集合,所述至少一个全局标签置信度集合与所述至少一个字符一一对应。

3.根据权利要求2所述的方法,其中,所述对所述特征向量序列进行局部命名实体识别,得到局部识别结果包括:

对所述特征向量序列进行局部置信度评价,确定局部标签置信度集合序列,作为所述局部识别结果,其中,所述局部标签置信度集合序列包括至少一个局部标签置信度集合,所述至少一个局部标签置信度集合与所述至少一个字符一一对应。

4.根据权利要求3所述的方法,其中,所述基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列包括:针对所述待识别文本中的每个字符,从所述全局标签置信度集合序列中确定与所述字符相匹配的全局标签置信度集合,其中,所述全局标签置信度集合包括多个全局标签置信度,所述多个全局标签置信度与多个命名实体类别一一对应;

针对所述待识别文本中的每个字符,从所述局部标签置信度集合序列中确定与所述字符相匹配的局部标签置信度集合,其中,所述局部标签置信度集合包括多个局部标签置信度,所述多个局部标签置信度与所述多个命名实体类别一一对应;

针对所述多个命名实体类别中的每个命名实体类别,基于与所述命名实体类别相对应的局部标签置信度和与所述命名实体类别相对应的全局标签置信度,确定标签置信度,得到标签置信度集合;

针对所述待识别文本中的每个字符,从所述标签置信度集合中确定目标标签置信度;

以及

基于所述待识别文本中的每个字符的目标标签置信度,确定所述命名实体标签序列。

5.根据权利要求1至4中任一项所述的方法,还包括:基于所述命名实体标签序列,从所述待识别文本中确定第一实体集合;

基于预定命名实体匹配规则,从所述待识别文本中确定第二实体集合;以及基于所述第一实体集合和所述第二实体集合,确定目标实体集合。

6.一种命名实体识别模型的训练方法,包括:利用训练样本训练初始命名实体识别模型,得到命名实体识别模型;

其中,所述命名实体识别模型用于:将待识别文本进行向量化处理,得到特征向量序列;

对所述特征向量序列进行全局命名实体识别,得到全局识别结果;

对所述特征向量序列进行局部命名实体识别,得到局部识别结果;以及基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列,其中,所述命名实体标签序列包括至少一个标签,所述待识别文本包括至少一个字符,所述至少一个命名实体标签与所述至少一个字符一一对应,所述命名实体标签用于表征所述字符是否为命名实体。

7.根据权利要求6所述的方法,其中,所述训练样本包括样本文本和所述样本文本的待确认样本标注结果序列;所述样本文本包括至少一个样本字符,所述待确认样本标注结果序列包括至少一个待确认样本标注结果,所述至少一个样本字符与所述至少一个待确认样本标注结果一一对应;

所述利用训练样本训练初始命名实体识别模型,得到命名实体识别模型包括:将所述样本文本输入至所述初始命名实体识别模型中,得到样本标签置信度集合序列;

基于所述待确认样本标注结果序列和所述样本标签置信度集合序列,确定所述目标样本标注结果序列;以及

基于所述目标样本标注结果序列和所述样本命名实体标签序列,调整所述初始命名实体识别模型的参数,得到所述命名实体识别模型。

8.一种命名实体识别装置,包括:提取模块,用于提取待识别文本中的特征,得到特征向量序列;

全局识别模块,用于对所述特征向量序列进行全局命名实体识别,得到全局识别结果;

局部识别模块,用于对所述特征向量序列进行局部命名实体识别,得到局部识别结果;

以及

结果确定模块,用于基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列,其中,所述命名实体标签序列包括至少一个命名实体标签,所述待识别文本包括至少一个字符,所述至少一个命名实体标签与所述至少一个字符一一对应,所述命名实体标签用于表征所述字符是否为命名实体。

9.根据权利要求8所述的装置,其中,所述全局识别模块包括:全局识别单元,用于对所述特征向量序列进行全局置信度评价,确定全局标签置信度集合序列,作为所述全局识别结果,其中,所述全局标签置信度集合序列包括至少一个全局标签置信度集合,所述至少一个全局标签置信度集合与所述至少一个字符一一对应。

10.根据权利要求9所述的装置,其中,所述局部识别模块包括:局部识别单元,用于对所述特征向量序列进行局部置信度评价,确定局部标签置信度集合序列,作为所述局部识别结果,其中,所述局部标签置信度集合序列包括至少一个局部标签置信度集合,所述至少一个局部标签置信度集合与所述至少一个字符一一对应。

11.根据权利要求10所述的装置,其中,所述结果确定模块包括:第一确定单元,用于针对所述待识别文本中的每个字符,从所述全局标签置信度集合序列中确定与所述字符相匹配的全局标签置信度集合,其中,所述全局标签置信度集合包括多个全局标签置信度,所述多个全局标签置信度与多个命名实体类别一一对应;

第二确定单元,用于针对所述待识别文本中的每个字符,从所述局部标签置信度集合序列中确定与所述字符相匹配的局部标签置信度集合,其中,所述局部标签置信度集合包括多个局部标签置信度,所述多个局部标签置信度与所述多个命名实体类别一一对应;

第三确定单元,用于针对所述多个命名实体类别中的每个命名实体类别,基于与所述命名实体类别相对应的局部标签置信度和与所述命名实体类别相对应的全局标签置信度,确定标签置信度,得到标签置信度集合;

第四确定单元,用于针对所述待识别文本中的每个字符,从所述标签置信度集合中确定目标标签置信度;以及

第五确定单元,用于基于所述待识别文本中的每个字符的目标标签置信度,确定所述命名实体标签序列。

12.根据权利要求8至11中任一项所述的装置,还包括:第一集合确定模块,用于基于所述命名实体标签序列,从所述待识别文本中确定第一实体集合;

第二集合确定模块,用于基于预定命名实体匹配规则,从所述待识别文本中确定第二实体集合;以及

目标集合确定模块,用于基于所述第一实体集合和所述第二实体集合,确定目标实体集合。

13.一种命名实体识别模型的训练装置,包括:训练模块,用于利用训练样本训练初始命名实体识别模型,得到命名实体识别模型;

其中,所述命名实体识别模型用于:将待识别文本进行向量化处理,得到特征向量序列;

对所述特征向量序列进行全局命名实体识别,得到全局识别结果;

对所述特征向量序列进行局部命名实体识别,得到局部识别结果;以及基于所述全局识别结果和局部识别结果,确定所述待识别文本的命名实体标签序列,其中,所述命名实体标签序列包括至少一个标签,所述待识别文本包括至少一个字符,所述至少一个命名实体标签与所述至少一个字符一一对应,所述命名实体标签用于表征所述字符是否为命名实体。

14.根据权利要求13所述的装置,其中,所述训练样本包括样本文本和所述样本文本的待确认样本标注结果序列;所述样本文本包括至少一个样本字符,所述待确认样本标注结果序列包括至少一个待确认样本标注结果,所述至少一个样本字符与所述至少一个待确认样本标注结果一一对应;

所述训练模块包括:

输入单元,用于将所述样本文本输入至所述初始命名实体识别模型中,得到样本标签置信度集合序列;

第五确定单元,用于基于所述待确认样本标注结果序列和所述样本标签置信度集合序列,确定所述目标样本标注结果序列;以及调整单元,用于基于所述目标样本标注结果序列和所述样本命名实体标签序列,调整所述初始命名实体识别模型的参数,得到所述命名实体识别模型。

15.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5中任一项所述的命名实体识别方法或权利要求6或7所述的命名实体识别模型的训练方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至5中任一项所述的命名实体识别方法或权利要求6或7所述的命名实体识别模型的训练方法。

17.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至5中任一项所述的命名实体识别方法或权利要求6或7所述的命名实体识别模型的训练方法。