1.一种语音信号生成方法,包括:
获取待转换为语音信号的合成文本;
采用已训练的参数合成模型对所述合成文本对应的语音信号的声学特征和所包含的各语音状态的状态时长信息进行预测,所述声学特征包括基频信息和频谱特征;
将预测出的声学特征和状态时长信息输入已训练的语音信号生成模型,输出所述合成文本对应的语音信号;
其中,所述语音信号生成模型是基于所述参数合成模型对第一样本语音库中的第一样本语音信号所包含的各语音状态的状态时长信息和第一样本语音信号的频谱特征的预测结果、以及从所述第一样本语音信号中提取出的基频信息训练得出的;
所述参数合成模型是基于第二样本语音库训练得出的,所述第二样本语音库包括多条第二样本语音信号、各第二样本语音信号对应的文本、各第二样本语音信号对应的声学特征的标记结果以及各第二样本语音信号所包含的各语音状态的状态时长信息的标记结果。
2.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述第一样本语音库,采用机器学习方法训练所述语音信号生成模型,其中,所述第一样本语音库包括多条第一样本语音信号以及各第一样本语音信号对应的文本;
所述基于所述第一样本语音库,采用机器学习方法训练所述语音信号生成模型,包括:将所述第一样本语音库中的各第一样本语音信号对应的文本输入所述已训练的参数合成模型,以对所述第一样本语音库中的各第一样本语音信号的频谱特征、以及各第一样本语音信号所包含的语音状态的状态时长信息进行预测;
获取对所述第一样本语音信号进行基频提取得到的基频信息;
将所述第一样本语音信号的基频信息、预测出的所述第一样本语音信号的频谱特征、预测出的所述第一样本语音信号所包含的各语音状态的状态时长信息作为条件信息,将所述条件信息输入待训练的语音信号生成模型,生成满足条件信息的目标语音信号;
根据所述目标语音信号与对应的第一样本语音信号之间的差异,迭代调整所述语音信号生成模型的参数,以使所述目标语音信号与对应的第一样本语音信号之间的差异满足预设的第一收敛条件。
3.根据权利要求2所述的方法,其中,所述根据所述目标语音信号与对应的第一样本语音信号之间的差异,迭代调整所述语音信号生成模型的参数,以使所述目标语音信号与对应的第一样本语音信号之间的差异满足预设的第一收敛条件,包括:基于所述目标语音信号与对应的第一样本语音信号之间的差异构建回归损失函数;
计算所述回归损失函数的值是否小于预设的阈值;
若否,计算所述语音信号生成模型中各个参数相对于所述回归损失函数的梯度,采用反向传播算法迭代更新所述语音信号生成模型的参数,以使所述回归损失函数的值小于预设的阈值。
4.根据权利要求1所述的方法,其中,所述方法还包括:
基于所述第二样本语音库,采用机器学习方法训练所述参数合成模型,包括:获取所述第二样本语音库中的第二样本语音的声学特征的标记结果和第二样本语音信号所包含的各语音状态的状态时长信息的标记结果;
将所述第二样本语音库中的第二样本语音信号对应的文本输入待训练的参数合成模型,以对所述第二样本语音信号的声学特征和第二样本语音信号所包含的各语音状态的状态时长信息进行预测;
根据所述第二样本语音库中所包含的第二样本语音信号的声学特征和所述第二样本语音信号所包含的语音状态的状态时长信息的标记结果与所述参数合成模型对所述第二样本语音信号的声学特征和所包含的语音状态的状态时长信息的预测结果之间的差异,迭代调整所述待训练的参数合成模型的参数,以使所述第二样本语音库中所包含的第二样本语音信号的声学特征和所述第二样本语音信号所包含的语音状态的状态信息的标记结果与所述参数合成模型对所述第二样本语音信号的声学特征和所包含的语音状态的状态时长信息的预测结果之间的差异满足预设的第二收敛条件。
5.根据权利1-4任一项所述的方法,其中,所述第二样本语音库中的第二样本语音信号的声学特征和第二样本语音信号所包含的各语音状态的状态时长信息是按照如下方式标记的:利用隐马尔可夫模型对所述第二样本语音库中的第二样本语音信号进行语音状态切分,得到所述第二样本语音信号所包含的各语音状态的状态时长信息的标记结果;
提取第二样本语音信号的基频信息和频谱特征,作为所述第二样本语音信号的基频信息和频谱特征的标记结果。
6.一种语音信号生成装置,包括:
获取单元,用于获取待转换为语音信号的合成文本;
预测单元,用于采用已训练的参数合成模型对所述合成文本对应的语音信号的声学特征和所包含的各语音状态的状态时长信息进行预测,所述声学特征包括基频信息和频谱特征;
生成单元,用于将预测出的声学特征和状态时长信息输入已训练的语音信号生成模型,输出所述合成文本对应的语音信号;
其中,所述语音信号生成模型是基于所述参数合成模型对第一样本语音库中的第一样本语音信号所包含的各语音状态的状态时长信息和第一样本语音信号的频谱特征的预测结果、以及从所述第一样本语音信号中提取出的基频信息训练得出的;
所述参数合成模型是基于第二样本语音库训练得出的,所述第二样本语音库包括多条第二样本语音信号、各第二样本语音信号对应的文本、各第二样本语音信号对应的声学特征的标记结果以及各第二样本语音信号所包含的各语音状态的状态时长信息的标记结果。
7.根据权利要求6所述的装置,其中,所述装置还包括:
第一训练单元,用于基于所述第一样本语音库,采用机器学习方法训练所述语音信号生成模型,其中,所述第一样本语音库包括多条第一样本语音信号以及各第一样本语音信号对应的文本;
所述第一训练单元用于按照如下方式训练所述语音信号生成模型:
将所述第一样本语音库中的各第一样本语音信号对应的文本输入所述已训练的参数合成模型,以对所述第一样本语音库中的各第一样本语音信号的频谱特征、以及各第一样本语音信号所包含的语音状态的状态时长信息进行预测;
获取对所述第一样本语音信号进行基频提取得到的基频信息;
将所述第一样本语音信号的基频信息、预测出的所述第一样本语音信号的频谱特征、预测出的所述第一样本语音信号所包含的各语音状态的状态时长信息作为条件信息,将所述条件信息输入待训练的语音信号生成模型,生成满足条件信息的目标语音信号;
根据所述目标语音信号与对应的第一样本语音信号之间的差异,迭代调整所述语音信号生成模型的参数,以使所述目标语音信号与对应的第一样本语音信号之间的差异满足预设的第一收敛条件。
8.根据权利要求7所述的装置,其中,所述第一训练单元用于按照如下方式迭代调整所述语音信号生成模型的参数,以使所述目标语音信号与对应的第一样本语音信号之间的差异满足预设的第一收敛条件:基于所述目标语音信号与对应的第一样本语音信号之间的差异构建回归损失函数;
计算所述回归损失函数的值是否小于预设的阈值;
若否,计算所述语音信号生成模型中各个参数相对于所述回归损失函数的梯度,采用反向传播算法迭代更新所述语音信号生成模型的参数,以使所述回归损失函数的值小于预设的阈值。
9.根据权利要求6所述的装置,其中,所述装置还包括:
第二训练单元,用于基于所述第二样本语音库,采用机器学习方法训练所述参数合成模型;
所述第二训练单元用于按照如下方式训练所述参数合成模型:
获取所述第二样本语音库中的第二样本语音的声学特征的标记结果和第二样本语音信号所包含的各语音状态的状态时长信息的标记结果;
将所述第二样本语音库中的第二样本语音信号对应的文本输入待训练的参数合成模型,以对所述第二样本语音信号的声学特征和第二样本语音信号所包含的各语音状态的状态时长信息进行预测;
根据所述第二样本语音库中所包含的第二样本语音信号的声学特征和所述第二样本语音信号所包含的语音状态的状态时长信息的标记结果与所述参数合成模型对所述第二样本语音信号的声学特征和所包含的语音状态的状态时长信息的预测结果之间的差异,迭代调整所述待训练的参数合成模型的参数,以使所述第二样本语音库中所包含的第二样本语音信号的声学特征和所述第二样本语音信号所包含的语音状态的状态时长信息的标记结果与所述参数合成模型对所述第二样本语音信号的声学特征和所包含的语音状态的状态时长信息的预测结果之间的差异满足预设的第二收敛条件。
10.根据权利6-9任一项所述的装置,其中,所述第二样本语音库中的第二样本语音信号的声学特征和第二样本语音信号所包含的各语音状态的状态时长信息是按照如下方式标记的:利用隐马尔可夫模型对所述第二样本语音库中的第二样本语音信号进行语音状态切分,得到所述第二样本语音信号所包含的各语音状态的状态时长信息的标记结果;
提取第二样本语音信号的基频信息和频谱特征,作为所述第二样本语音信号的基频信息和频谱特征的标记结果。
11.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。