欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020112075983
申请人: 广西大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于回译的文本三元组标注样本增强方法,其特征在于:包括以下步骤:S1.对文本标注三元组进行识别与处理,得到带命名实体类型标注的三元组标注样本;

S2.对三元组标注样本进行数据预处理,在三元组标注样本中提取命名实体间嵌套关系;按多种不同回译中间语言,在原始文本中为三元组各命名实体添加标识标签,或者进行命名实体替换;

S3.将预处理后的三元组标注样本按字串长度限制,通过分隔符组成一个预处理批次;

S4.对某特定语言对应的一个预处理文本批次进行回译,通过其作为中间语言得到回译后的长文本,从长文本中分割出各个三元组标注样本的回译结果;

S5.根据原始文本中三元组各命名实体的标识标签,将回译后多样化的命名实体及其添加的标识标签,还原成原命名实体或替换为其他同类型命名实体;同时,也将回译后句子和三元组标注的对应部分做相同操作,以得到增强样本;

S6.通过对比增强样本和原始文本中句子的相似度,按阈值过滤掉相似句子,保留句子的多样性。

2.根据权利要求1所述的文本三元组标注样本增强方法,其特征在于:在步骤S1中,将输入的文本标注三元组提供给命名实体标注模块,根据三元组和三元组关系类型构造命名实体关系短句,以实体关系短句作为基础命名实体识别模块的输入;

将实体关系短句作为输入提供给基础命名实体识别模块,基础命名实体识别模块给出短句的基础命名实体标注,获得三元组谓语对应的subject和object对应的类型信息;

根据命名实体构词规则和基础命名实体标注,及二者组合特点,生成带命名实体类型标注的三元组标注样本。

3.根据权利要求2所述的文本三元组标注样本增强方法,其特征在于:所述基础命名实体识别模块通过以下方式进行构造:采用Bidirectional Encoder Representation from Transformers模型,并加载中文预训练语料,最后采用crf(条件随机场)模型进行命名实体识别。

4.根据权利要求2所述的文本三元组标注样本增强方法,其特征在于:构造命名实体关系短句时,结合三元组谓语和前后命名实体搭配规律实现。

5.根据权利要求2或3所述的文本三元组标注样本增强方法,其特征在于:将输入的文本标注三元组提供给命名实体标注模块,用命名实体识别模块判断三元组谓语对应的subject和object对应的类型;

首先,根据标注样本的三元组来构造短句,让其互为上下文内容;

然后,将构造的短句提供给基础命名实体识别模块,得出句子各部分的基础命名实体标注,在谓词前后可搭配的对象类型的选择范围内,根据目标对象的构词规则和基础命名实体标注,合并基础命名实体,判断命名实体类型;

最后得出带命名实体类型的三元组标注样本。

6.根据权利要求1所述的文本三元组标注样本增强方法,其特征在于:在步骤S4中,根据特定回译语言特点,对预处理文本的标注命名实体打上标识标签或对特定类型做命名实体替换,生成预回译文本。

7.根据权利要求1或5所述的文本三元组标注样本增强方法,其特征在于:在步骤S5中,通过多语言回译预回译样本,原命名实体标签在多语言回译结果中保持有可标识性;

回译生成新文本,根据之前的标识标签和嵌套关系,提取新文本对应的标注三元组,做相应的同类词替换,生成新标注样本。

8.根据权利要求1所述的文本三元组标注样本增强方法,其特征在于:在步骤S6中句子相似度计算使用Jaccard系数;

给定两个句子A、B,Jaccard系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下: