欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020112949997
申请人: 平安普惠企业管理有限公司
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2024-05-30
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种中文文本的纠错方法,其特征在于,包括:判断当前任务领域的词库中的词汇量是否达到预设条件;

若是,则在所述当前任务领域的词库中,构建预训练模型的语料训练集,训练所述当前任务领域的中文文本的纠错模型进行文本纠错,其中,所述纠错模型包括词嵌入层,探测层、编码层以及输出层;

若否,则通过文本语句中的拼音编辑距离、左右熵以及频数,进行文本纠错。

2.根据权利要求1所述的中文文本的纠错方法,其特征在于,所述在所述当前任务领域的词库中,构建预训练模型的语料训练集,训练所述当前任务领域的中文文本的纠错模型进行文本纠错的步骤,包括:在所述当前任务领域的词库中,构建预训练模型的语料训练集;

将指定语料对输入所述预训练模型的词嵌入层,得到所述指定语料对对应的第一矩阵,其中,所述指定语料对为所述语料训练集中的任意语料对;

将所述第一矩阵输入至探测层得到第一输出,将所述第一矩阵输入至编码层得到第二输出;

将所述第一输出和所述第二输出组成损失函数;

通过梯度下降在所述语料训练集上最小化所述损失函数;

判断所述损失函数是否达到最小值;

若是,则判定得到所述当前任务领域的中文文本的纠错模型;

将待分析中文语句输入所述中文文本的纠错模型,输出所述待分析中文语句经过纠错分析的纠正后语句。

3.根据权利要求2所述的中文文本的纠错方法,其特征在于,所述在所述当前任务领域的词库中,构建预训练模型的语料训练集的步骤,包括:统计指定语句中所有二元语法词的频数;

判断是否存在频数小于所述当前任务领域的词库的二元语法词阈值;

若否,则判定所述指定语句为正确语句的文本,否则删除所述指定语句;

构建所述指定语句对应的错误语句的文本;

将所述指定语句与所述指定语句对应的错误语句的文本组成语料对,存储于所述语料训练集中。

4.根据权利要求2所述的中文文本的纠错方法,其特征在于,所述探测层包括依次连接的双向LSTM层、第一全连接层、拟合修正层和第一输出层,所述将所述第一矩阵输入至探测层得到第一输出的步骤,包括:将所述第一矩阵输入所述双向LSTM层,得到所述指定语料对的探测量;

将所述探测量输入所述第一全连接层进行全连接,得到全连接量;

将所述全连接量输入所述拟合修正层,得到拟合修正矩阵;

将所述拟合修正矩阵输入所述第一输出层得到第一词向量矩阵,其中,所述第一词向量矩阵包括字符修改概率;

将所述第一词向量矩阵作为所述第一输出。

5.根据权利要求2所述的中文文本的纠错方法,其特征在于,所述编码层包括多层编码,以及连接于多层编码之后的第二全连接层、第三全连接层和残差结构,所述将所述第一矩阵输入至编码层得到第二输出的步骤,包括:将所述第一矩阵输入所述多层编码,得到编码结果;

将所述编码结果输入所述第二全连接层得到第一结果,将所述编码结果输入所述残差结构得到第二结果;

将所述第一结果和第二结果相加,输入至所述第三全连接层得到第二词向量矩阵,其中,所述第二词向量矩阵包括预测字符位置与字符对应的概率;

将所述第二词向量矩阵作为所述第二输出。

6.根据权利要求2所述的中文文本的纠错方法,其特征在于,所述将所述第一输出和所述第二输出组成损失函数的步骤,包括:根据计算公式Lt=Ld+λLo得到所述损失函数,其中,Lt表示所述损失函数,Ld表示所述第一输出,Lo表示所述第二输出,λ表示调节系数,属于0到100%之间的百分数。

7.根据权利要求1所述的中文文本的纠错方法,其特征在于,所述通过文本语句中的拼音编辑距离、左右熵以及频数,进行文本纠错的步骤,包括:获取文本语句中指定词与固定词典中的种子词之间的拼音编辑距离,获取所述指定词与位于所述指定词左右的相邻词之间的左右熵,获取所述指定词对应的出现频数;

将所述指定词对应的拼音编辑距离、左右熵以及出现频数,按照预设权重计算输出数值;

判断所述输出数值是否大于预设阈值;

若否,则判定所述指定词为需要修改的错误词,否则所述指定词为正确词;

根据所述指定词对应的拼音编辑距离,纠正所述指定词与所述固定词典中的种子词一致;

根据所述指定词的纠正方式,纠正所述文本语句中的所有错误词。

8.一种中文文本的纠错装置,其特征在于,包括:判断模块,用于判断当前任务领域的词库中的词汇量是否达到预设条件;

第一纠错模块,用于若达到预设条件,则在所述当前任务领域的词库中,构建预训练模型的语料训练集,训练所述当前任务领域的中文文本的纠错模型进行文本纠错,其中,所述纠错模型包括词嵌入层,探测层、编码层以及输出层;

第二纠错模块,用于若未达到预设条件,则通过文本语句中的拼音编辑距离、左右熵以及频数,进行文本纠错。

9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。