1.一种中文文本的纠错方法,其特征在于,包括:判断当前任务领域的词库中的词汇量是否达到预设条件;
若是,则在所述当前任务领域的词库中,构建预训练模型的语料训练集,训练所述当前任务领域的中文文本的纠错模型进行文本纠错,其中,所述纠错模型包括词嵌入层,探测层、编码层以及输出层;
若否,则通过文本语句中的拼音编辑距离、左右熵以及频数,进行文本纠错。
2.根据权利要求1所述的中文文本的纠错方法,其特征在于,所述在所述当前任务领域的词库中,构建预训练模型的语料训练集,训练所述当前任务领域的中文文本的纠错模型进行文本纠错的步骤,包括:在所述当前任务领域的词库中,构建预训练模型的语料训练集;
将指定语料对输入所述预训练模型的词嵌入层,得到所述指定语料对对应的第一矩阵,其中,所述指定语料对为所述语料训练集中的任意语料对;
将所述第一矩阵输入至探测层得到第一输出,将所述第一矩阵输入至编码层得到第二输出;
将所述第一输出和所述第二输出组成损失函数;
通过梯度下降在所述语料训练集上最小化所述损失函数;
判断所述损失函数是否达到最小值;
若是,则判定得到所述当前任务领域的中文文本的纠错模型;
将待分析中文语句输入所述中文文本的纠错模型,输出所述待分析中文语句经过纠错分析的纠正后语句。
3.根据权利要求2所述的中文文本的纠错方法,其特征在于,所述在所述当前任务领域的词库中,构建预训练模型的语料训练集的步骤,包括:统计指定语句中所有二元语法词的频数;
判断是否存在频数小于所述当前任务领域的词库的二元语法词阈值;
若否,则判定所述指定语句为正确语句的文本,否则删除所述指定语句;
构建所述指定语句对应的错误语句的文本;
将所述指定语句与所述指定语句对应的错误语句的文本组成语料对,存储于所述语料训练集中。
4.根据权利要求2所述的中文文本的纠错方法,其特征在于,所述探测层包括依次连接的双向LSTM层、第一全连接层、拟合修正层和第一输出层,所述将所述第一矩阵输入至探测层得到第一输出的步骤,包括:将所述第一矩阵输入所述双向LSTM层,得到所述指定语料对的探测量;
将所述探测量输入所述第一全连接层进行全连接,得到全连接量;
将所述全连接量输入所述拟合修正层,得到拟合修正矩阵;
将所述拟合修正矩阵输入所述第一输出层得到第一词向量矩阵,其中,所述第一词向量矩阵包括字符修改概率;
将所述第一词向量矩阵作为所述第一输出。
5.根据权利要求2所述的中文文本的纠错方法,其特征在于,所述编码层包括多层编码,以及连接于多层编码之后的第二全连接层、第三全连接层和残差结构,所述将所述第一矩阵输入至编码层得到第二输出的步骤,包括:将所述第一矩阵输入所述多层编码,得到编码结果;
将所述编码结果输入所述第二全连接层得到第一结果,将所述编码结果输入所述残差结构得到第二结果;
将所述第一结果和第二结果相加,输入至所述第三全连接层得到第二词向量矩阵,其中,所述第二词向量矩阵包括预测字符位置与字符对应的概率;
将所述第二词向量矩阵作为所述第二输出。
6.根据权利要求2所述的中文文本的纠错方法,其特征在于,所述将所述第一输出和所述第二输出组成损失函数的步骤,包括:根据计算公式Lt=Ld+λLo得到所述损失函数,其中,Lt表示所述损失函数,Ld表示所述第一输出,Lo表示所述第二输出,λ表示调节系数,属于0到100%之间的百分数。
7.根据权利要求1所述的中文文本的纠错方法,其特征在于,所述通过文本语句中的拼音编辑距离、左右熵以及频数,进行文本纠错的步骤,包括:获取文本语句中指定词与固定词典中的种子词之间的拼音编辑距离,获取所述指定词与位于所述指定词左右的相邻词之间的左右熵,获取所述指定词对应的出现频数;
将所述指定词对应的拼音编辑距离、左右熵以及出现频数,按照预设权重计算输出数值;
判断所述输出数值是否大于预设阈值;
若否,则判定所述指定词为需要修改的错误词,否则所述指定词为正确词;
根据所述指定词对应的拼音编辑距离,纠正所述指定词与所述固定词典中的种子词一致;
根据所述指定词的纠正方式,纠正所述文本语句中的所有错误词。
8.一种中文文本的纠错装置,其特征在于,包括:判断模块,用于判断当前任务领域的词库中的词汇量是否达到预设条件;
第一纠错模块,用于若达到预设条件,则在所述当前任务领域的词库中,构建预训练模型的语料训练集,训练所述当前任务领域的中文文本的纠错模型进行文本纠错,其中,所述纠错模型包括词嵌入层,探测层、编码层以及输出层;
第二纠错模块,用于若未达到预设条件,则通过文本语句中的拼音编辑距离、左右熵以及频数,进行文本纠错。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。