欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021115454651
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种实体识别模型的训练方法,包括:对第一训练集进行数据增强,得到增强后的第二训练集;所述第一训练集包括已标注样本数据,所述已标注样本数据的数量小于第一指定数量;

基于所述第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型;

通过所述第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;

所述第三训练集包括未标注样本数据,所述未标注样本数据的数量大于或等于所述第一指定数量;

基于所述第四训练集对所述第一实体识别模型进行训练,得到训练出的第三实体识别模型。

2.根据权利要求1所述的实体识别模型的训练方法,还包括:基于指定领域的语料对预训练语言模型进行训练,得到训练后的预训练语言模型,作为所述第一实体识别模型。

3.根据权利要求1或2所述的实体识别模型的训练方法,还包括:通过所述第二实体识别模型对所述第一训练集进行实体标注,得到标注后的第五训练集;

基于所述第五训练集对所述第三实体识别模型进行迭代训练,得到训练出的第四实体识别模型。

4.根据权利要求3所述的实体识别模型的训练方法,其中,每次迭代训练,包括:基于当前的第五训练集对当前的第三实体识别模型进行训练;

通过训练后的第三实体识别模型对所述第四训练集和经所述第二实体识别模型标注后的第五训练集进行实体标注;

在经所述训练后的第三实体识别模型标注后的第四训练集和第五训练集中确定模型难分样本;所述模型难分样本为令所述训练后的第三实体识别模型的区分能力低于预设的区分条件的样本数据;

确定所述模型难分样本的数量是否大于第二指定数量;

在所述模型难分样本的数量大于所述第二指定数量的情况下,将所述模型难分样本添加到当前的第五训练集中,得到新的第五训练集;

在所述模型难分样本的数量小于或等于所述第二指定数量的情况下,结束所述迭代训练。

5.根据权利要求4所述的实体识别模型的训练方法,其中,将所述模型难分样本添加到当前的第五训练集中,包括:

响应于添加指令,将所述模型难分样本添加到当前的第五训练集中,得到新的第五训练集;所述添加指令为对所述模型难分样本进行人工标注后生成的指令。

6.根据权利要求4所述的实体识别模型的训练方法,每次迭代训练还包括:通过所述训练后的第三实体识别模型对测试集进行实体标注,得到标注效果值,作为第一标注效果值;

确定所述第一标注效果值是否小于第二标注效果值;所述第二标注效果值是上一次迭代训练中对所述测试集进行实体预测得到的标注效果值;

在所述第一标注效果值小于第二标注效果值的情况下,结束所述迭代训练。

7.根据权利要求1或2所述的实体识别模型的训练方法,其中,至少部分未标注样本数据为指定领域的样本数据。

8.一种实体识别方法,包括:获取待标注数据;

通过实体识别模型对所述待标注数据进行实体标注;所述实体识别模型是通过权利要求1‑7中任一项所述的实体识别模型的训练方法训练出的。

9.一种实体识别模型的训练装置,包括:数据增强模块,用于对第一训练集进行数据增强,得到增强后的第二训练集;所述第一训练集包括已标注样本数据,所述已标注样本数据的数量小于第一指定数量;

第一训练模块,用于基于所述第二训练集对第一实体识别模型进行训练,得到训练出的第二实体识别模型;

第一标注模块,用于通过所述第二实体识别模型对第三训练集进行实体标注,得到标注后的第四训练集;所述第三训练集包括未标注样本数据,所述未标注样本数据的数量大于或等于所述第一指定数量;

第二训练模块,用于基于所述第四训练集对所述第一实体识别模型进行训练,得到训练出的第三实体识别模型。

10.根据权利要求9所述的实体识别模型的训练装置,还包括:第三训练模块,用于基于指定领域的语料对预训练语言模型进行训练,得到训练后的预训练语言模型,作为所述第一实体识别模型。

11.根据权利要求9或10所述的实体识别模型的训练装置,还包括:第二标注模块,用于通过所述第二实体识别模型对所述第一训练集进行实体标注,得到标注后的第五训练集;

第四训练模块,用于基于所述第五训练集对所述第三实体识别模型进行迭代训练,得到训练出的第四实体识别模型。

12.根据权利要求11所述的实体识别模型的训练装置,其中,所述第四训练模块具体用于:

在每次迭代训练中,基于当前的第五训练集对当前的第三实体识别模型进行训练;通过训练后的第三实体识别模型对所述第四训练集和经所述第二实体识别模型标注后的第五训练集进行实体标注;在经所述训练后的第三实体识别模型标注后的第四训练集和第五训练集中确定模型难分样本;确定所述模型难分样本的数量是否大于第二指定数量;在所述模型难分样本的数量大于所述第二指定数量的情况下,将所述模型难分样本添加到当前的第五训练集中,得到新的第五训练集;在所述模型难分样本的数量小于或等于所述第二指定数量的情况下,结束所述迭代训练;

所述模型难分样本为令所述训练后的第三实体识别模型的区分能力低于预设的区分条件的样本数据。

13.根据权利要求12所述的实体识别模型的训练装置,其中,所述第四训练模块具体用于:

响应于添加指令,将所述模型难分样本添加到当前的第五训练集中,得到新的第五训练集;所述添加指令为对所述模型难分样本进行人工标注后生成的指令。

14.根据权利要求12所述的实体识别模型的训练装置,其中,所述第四训练模块还用于:

通过所述训练后的第三实体识别模型对测试集进行实体标注,得到标注效果值,作为第一标注效果值;确定所述第一标注效果值是否小于第二标注效果值;所述第二标注效果值是上一次迭代训练中对所述测试集进行实体预测得到的标注效果值;在所述第一标注效果值小于第二标注效果值的情况下,结束所述迭代训练。

15.根据权利要求9或10所述的实体识别模型的训练装置,其中,至少部分未标注样本数据为指定领域的样本数据。

16.一种实体识别装置,包括:数据获取模块,用于获取待标注数据;

实体标注模块,用于通过实体识别模型对所述待标注数据进行实体标注;所述实体识别模型是通过权利要求9‑15中任一项所述的实体识别模型的训练装置训练出的。

17.一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:如权利要求1‑7中任一项所述的实体识别模型的训练方法,或,如权利要求8所述的实体识别方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行:如权利要求1‑7中任一项所述的实体识别模型的训练方法,或,如权利要求8所述的实体识别方法。

19.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现:权利要求1‑7中任一项所述的实体识别模型的训练方法,或权利要求8所述的实体识别方法。