知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

中文文本的纠错方法、装置和计算机设备

￥39700

专利号： 2020112949997

申请人：平安普惠企业管理有限公司

专利类型：发明专利

专利状态：授权未缴费

专利领域：计算；推算；计数

更新日期：2024-05-30

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种中文文本的纠错方法，其特征在于，包括：判断当前任务领域的词库中的词汇量是否达到预设条件；

若是，则在所述当前任务领域的词库中，构建预训练模型的语料训练集，训练所述当前任务领域的中文文本的纠错模型进行文本纠错，其中，所述纠错模型包括词嵌入层，探测层、编码层以及输出层；

若否，则通过文本语句中的拼音编辑距离、左右熵以及频数，进行文本纠错。

2.根据权利要求1所述的中文文本的纠错方法，其特征在于，所述在所述当前任务领域的词库中，构建预训练模型的语料训练集，训练所述当前任务领域的中文文本的纠错模型进行文本纠错的步骤，包括：在所述当前任务领域的词库中，构建预训练模型的语料训练集；

将指定语料对输入所述预训练模型的词嵌入层，得到所述指定语料对对应的第一矩阵，其中，所述指定语料对为所述语料训练集中的任意语料对；

将所述第一矩阵输入至探测层得到第一输出，将所述第一矩阵输入至编码层得到第二输出；

将所述第一输出和所述第二输出组成损失函数；

通过梯度下降在所述语料训练集上最小化所述损失函数；

判断所述损失函数是否达到最小值；

若是，则判定得到所述当前任务领域的中文文本的纠错模型；

将待分析中文语句输入所述中文文本的纠错模型，输出所述待分析中文语句经过纠错分析的纠正后语句。

3.根据权利要求2所述的中文文本的纠错方法，其特征在于，所述在所述当前任务领域的词库中，构建预训练模型的语料训练集的步骤，包括：统计指定语句中所有二元语法词的频数；

判断是否存在频数小于所述当前任务领域的词库的二元语法词阈值；

若否，则判定所述指定语句为正确语句的文本，否则删除所述指定语句；

构建所述指定语句对应的错误语句的文本；

将所述指定语句与所述指定语句对应的错误语句的文本组成语料对，存储于所述语料训练集中。

4.根据权利要求2所述的中文文本的纠错方法，其特征在于，所述探测层包括依次连接的双向LSTM层、第一全连接层、拟合修正层和第一输出层，所述将所述第一矩阵输入至探测层得到第一输出的步骤，包括：将所述第一矩阵输入所述双向LSTM层，得到所述指定语料对的探测量；

将所述探测量输入所述第一全连接层进行全连接，得到全连接量；

将所述全连接量输入所述拟合修正层，得到拟合修正矩阵；

将所述拟合修正矩阵输入所述第一输出层得到第一词向量矩阵，其中，所述第一词向量矩阵包括字符修改概率；

将所述第一词向量矩阵作为所述第一输出。

5.根据权利要求2所述的中文文本的纠错方法，其特征在于，所述编码层包括多层编码，以及连接于多层编码之后的第二全连接层、第三全连接层和残差结构，所述将所述第一矩阵输入至编码层得到第二输出的步骤，包括：将所述第一矩阵输入所述多层编码，得到编码结果；

将所述编码结果输入所述第二全连接层得到第一结果，将所述编码结果输入所述残差结构得到第二结果；

将所述第一结果和第二结果相加，输入至所述第三全连接层得到第二词向量矩阵，其中，所述第二词向量矩阵包括预测字符位置与字符对应的概率；

将所述第二词向量矩阵作为所述第二输出。

6.根据权利要求2所述的中文文本的纠错方法，其特征在于，所述将所述第一输出和所述第二输出组成损失函数的步骤，包括：根据计算公式Lt＝Ld+λLo得到所述损失函数，其中，Lt表示所述损失函数，Ld表示所述第一输出，Lo表示所述第二输出，λ表示调节系数，属于0到100％之间的百分数。

7.根据权利要求1所述的中文文本的纠错方法，其特征在于，所述通过文本语句中的拼音编辑距离、左右熵以及频数，进行文本纠错的步骤，包括：获取文本语句中指定词与固定词典中的种子词之间的拼音编辑距离，获取所述指定词与位于所述指定词左右的相邻词之间的左右熵，获取所述指定词对应的出现频数；

将所述指定词对应的拼音编辑距离、左右熵以及出现频数，按照预设权重计算输出数值；

判断所述输出数值是否大于预设阈值；

若否，则判定所述指定词为需要修改的错误词，否则所述指定词为正确词；

根据所述指定词对应的拼音编辑距离，纠正所述指定词与所述固定词典中的种子词一致；

根据所述指定词的纠正方式，纠正所述文本语句中的所有错误词。

8.一种中文文本的纠错装置，其特征在于，包括：判断模块，用于判断当前任务领域的词库中的词汇量是否达到预设条件；

第一纠错模块，用于若达到预设条件，则在所述当前任务领域的词库中，构建预训练模型的语料训练集，训练所述当前任务领域的中文文本的纠错模型进行文本纠错，其中，所述纠错模型包括词嵌入层，探测层、编码层以及输出层；

第二纠错模块，用于若未达到预设条件，则通过文本语句中的拼音编辑距离、左右熵以及频数，进行文本纠错。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

推荐专利

文字识别纠错方法、装置、设备及计算机可读存储介质

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们