知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于Transformer的中文文本信息缺失的补全方法

￥43700

专利号： 2020104769687

申请人：西安理工大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.基于Transformer编码器的中文文本信息缺失的补全方法，其特征在于，包括以下步骤：

步骤1：对待处理的中文文本公开语料的人工预处理，以形成供模型训练的监督数据；

标记主要采用对中文文本输入关键词的方法；对于一个给定的未处理的自然文本语料，通过计算机识别句号，将文本分割为以句为分割的大量短句语料，然后对每一句语料人工判断是否存在主语缺失现象，如果存在，则在文本的末尾处添加[tag]标识，表示文本需要进行文本信息缺失补全处理；另外，每一条短句中的前半句和后半句将添加[sep]标识符为本句的短句分割标签；

步骤2：短句通过minibatch的方式转变为Bert词向量，产生的词向量将传入SVM进行文本二分类任务，分类结果将决定文本是否进行信息缺失补全；采用SVM对标记的文本进行学习，最终将文本分类为合理的分类为“不需要进行实体补全”和“需要进行实体补全”两类；

步骤3：通过大量标记文本的训练，SVM会将数据合理的分类为“不需要进行实体补全”和“需要进行实体补全”两类，其中被分类为“需要进行实体补全”的文本batch，将被输入进入文本信息缺失补全模型，所述文本信息缺失补全模型采用MLM遮盖预训练思想和TransformerEncoder编码器构建的，模型将通过训练决定缺失位置的信息补全结果；采用大量遮盖[mask]标签产生的噪声，对模型进行训练，使得模型具有文本的生成能力，对文本缺失信息位置生成机器预测的缺失文本结果；一方面，在模型训练阶段，结果的产生被用于计算交叉熵来完成模型的训练，另一方面，在模型使用阶段，结果的产生被用于文本缺失信息的最终生成；

步骤4：文本缺失信息预测生成的结果被优化方法进行模型的训练；优化方法采用SGD随机梯度下降，SGD将避免模型的目标函数的求解陷入局部最优解，使得模型求解的结果逼近全局最优解，实现文本信息的补全。

2.根据权利要求1所述的基于Transformer编码器的中文文本信息缺失的补全方法，其特征在于，步骤1中，所述预处理包括数据规范化和数据标记。

3.根据权利要求1所述的基于Transformer编码器的中文文本信息缺失的补全方法，其特征在于，步骤1中，所述文本标记的方法，主要采用BERT模型的文本标记方法。

4.根据权利要求1所述的基于Transformer编码器的中文文本信息缺失的补全方法，其特征在于，步骤2中，所述词向量采用了基于维基百科语料训练的基础版BERT词向量，分类器采用SVM，SVM核函数的选取采用高斯核，高斯核函数使得SVM可以将任意数据映射为空间可分的维度；为避免分类器过拟合导致模型失效，需要在模型训练中控制参数。

5.根据权利要求1所述的基于Transformer编码器的中文文本信息缺失的补全方法，其特征在于，步骤3中，所述通过模型1传出的文本词向量将被传入到模型2，传入后，加入了位置向量信息postionEncoding；最终形成供模型2使用的短句文本向量；[sep]分隔符将通过查词典表转化为int型数值信息，最终形成文本短句的Tensor张量；模型在训练前，将进行随机的[mask]标签替换，替换采用随机数的形式，对文本单词序号进行随机，随机的结果将遮盖这个词或字，并替换为[mask]标签。