1.一种语音合成方法,其特征在于,所述方法包括:
从音库中的文本及对应的语音中,提取数个训练文本及对应的训练语音;分别从数个所述训练语音中提取各所述训练语音中每个音素对应的状态的时长以及每一帧对应的基频;根据各所述训练文本及对应的所述训练语音中的每个音素对应的状态的时长,训练时长预测模型;根据各所述训练文本及对应的所述训练语音中的每一帧对应的基频,训练基频预测模型;根据各所述训练文本、对应的各所述训练语音、对应的各所述训练语音中的每个音素对应的状态的时长以及每一帧对应的基频,训练语音合成模型;
在语音拼接合成出现问题语音时,根据预先训练的时长预测模型和基频预测模型,预测所述问题语音对应的目标文本对应的每个音素的状态的时长以及每一帧的基频;
根据所述目标文本对应的所述每个音素的状态的时长以及每一帧的基频,使用预先训练的语音合成模型,合成所述目标文本对应的语音;其中,所述时长预测模型、所述基频预测模型和所述语音合成模型均基于语音拼接合成的音库训练得到。
2.根据权利要求1所述的方法,其特征在于,根据预先训练的时长预测模型和基频预测模型,预测目标文本对应的每个音素的状态的时长以及每一帧的基频之前,所述方法还包括:在使用所述音库进行语音拼接合成时,接收用户反馈的所述问题语音以及所述问题语音对应的所述目标文本。
3.根据权利要求1所述的方法,其特征在于,根据所述目标文本对应的所述每个音素的状态的时长以及每一帧的基频,使用预先训练的语音合成模型,合成所述目标文本对应的语音之后,所述方法还包括:将所述目标文本以及对应的合成的所述语音加入所述音库中。
4.根据权利要求1-3任一所述的方法,其特征在于,所述语音合成模型采用WaveNet模型。
5.一种语音合成装置,其特征在于,所述装置包括:
训练模块,用于从音库中的文本及对应的语音中,提取数个训练文本及对应的训练语音;分别从数个所述训练语音中提取各所述训练语音中每个音素对应的状态的时长以及每一帧对应的基频;根据各所述训练文本及对应的所述训练语音中的每个音素对应的状态的时长,训练时长预测模型;根据各所述训练文本及对应的所述训练语音中的每一帧对应的基频,训练基频预测模型;根据各所述训练文本、对应的各所述训练语音、对应的各所述训练语音中的每个音素对应的状态的时长以及每一帧对应的基频,训练语音合成模型;
预测模块,用于在语音拼接合成出现问题语音时,根据预先训练的时长预测模型和基频预测模型,预测所述问题语音对应的目标文本对应的每个音素的状态的时长以及每一帧的基频;
合成模块,用于根据所述目标文本对应的所述每个音素的状态的时长以及每一帧的基频,使用预先训练的语音合成模型,合成所述目标文本对应的语音;其中,所述时长预测模型、所述基频预测模型和所述语音合成模型均基于语音拼接合成的音库训练得到。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
接收模块,用于在使用所述音库进行语音拼接合成时,接收用户反馈的所述问题语音以及所述问题语音对应的所述目标文本。
7.根据权利要求5所述的装置,其特征在于,所述装置还包括:
添加模块,用于将所述目标文本以及对应的合成的所述语音加入所述音库中。
8.根据权利要求5-7任一所述的装置,其特征在于,所述语音合成模型采用WaveNet模型。
9.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的方法。