1.一种用于语音合成系统的韵律与声学联合建模的方法,其特征在于,包括以下步骤:
根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型,其中,所述第一韵律标注集合和所述第二韵律标注集合分别与所述第一文本特征集合和第二文本特征集合对应;
根据所述第二文本特征集合通过所述连续韵律预测模型预测所述第二文本特征集合对应的连续韵律特征集合;以及根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型,其中,所述声学参数集合与所述第二文本特征集合对应。
2.如权利要求1所述的用于语音合成系统的韵律与声学联合建模的方法,其特征在于,所述根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型具体包括:通过深度神经网络算法对所述第一文本特征集合、所述第二文本特征集合、所述第一韵律标注集合和所述第二韵律标注集合进行韵律训练,并根据训练结果建立所述连续韵律预测模型。
3.如权利要求1所述的用于语音合成系统的韵律与声学联合建模的方法,其特征在于,在所述根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型之后,包括:获得待处理的文本信息,并通过所述连续韵律预测模型生成所述文本信息的连续韵律特征信息;
将所述文本信息和所述连续韵律特征信息输入所述声学预测模型,所述声学预测模型根据所述文本信息和所述连续韵律特征信息生成所述文本信息的声学参数信息;以及根据所述声学参数信息合成所述文本信息的语音。
4.如权利要求1所述的用于语音合成系统的韵律与声学联合建模的方法,其特征在于,所述连续韵律特征集合中包括所述第二文本特征集合中的每个音子所属语法词的韵律停顿等级的概率,所述声学参数集合中包括不同概率的韵律停顿等级所对应的声学信息。
5.如权利要求4所述的用于语音合成系统的韵律与声学联合建模的方法,其特征在于,所述声学信息包括时长和基频。
6.如权利要求5所述的用于语音合成系统的韵律与声学联合建模的方法,所述根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型,具体包括:通过深度神经网络算法对所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行训练,以获得语法词、韵律停顿等级的概率与声学信息的映射关系;以及根据所述映射关系建立所述声学预测模型。
7.一种用于语音合成系统的韵律与声学联合建模的装置,其特征在于,包括:
第一生成模块,用于根据第一文本特征集合、第二文本特征集合、第一韵律标注集合和第二韵律标注集合进行韵律训练以生成连续韵律预测模型,其中,所述第一韵律标注集合和所述第二韵律标注集合分别与所述第一文本特征集合和第二文本特征集合对应;
预测模块,用于根据所述第二文本特征集合通过所述连续韵律预测模型预测所述第二文本特征集合对应的连续韵律特征集合;以及第二生成模块,用于根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型,其中,所述声学参数集合与所述第二文本特征集合对应。
8.如权利要求7所述的用于语音合成系统的韵律与声学联合建模的装置,其特征在于,所述第一生成模块,具体用于:通过深度神经网络算法对所述第一文本特征集合、所述第二文本特征集合、所述第一韵律标注集合和所述第二韵律标注集合进行韵律训练,并根据训练结果建立所述连续韵律预测模型。
9.如权利要求7所述的用于语音合成系统的韵律与声学联合建模的装置,其特征在于,还包括:处理模块,用于在所述第二生成模块根据所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行声学训练以生成所述声学预测模型之后,获得待处理的文本信息,并通过所述连续韵律预测模型生成所述文本信息的连续韵律特征信息;将所述文本信息和所述连续韵律特征信息输入所述声学预测模型,所述声学预测模型根据所述文本信息和所述连续韵律特征信息生成所述文本信息的声学参数信息;以及根据所述声学参数信息合成所述文本信息的语音。
10.如权利要求7所述的用于语音合成系统的韵律与声学联合建模的装置,其特征在于,所述连续韵律特征集合中包括所述第二文本特征集合中的每个音子所属语法词的韵律停顿等级的概率,所述声学参数集合中包括不同概率的韵律停顿等级所对应的声学信息。
11.如权利要求10所述的用于语音合成系统的韵律与声学联合建模的装置,其特征在于,所述声学信息包括时长和基频。
12.如权利要求11所述的用于语音合成系统的韵律与声学联合建模的装置,所述第二生成模块,具体用于:通过深度神经网络算法对所述第二文本特征集合、所述连续韵律特征集合和声学参数集合进行训练,以获得语法词、韵律停顿等级的概率与声学信息的映射关系,并根据所述映射关系建立所述声学预测模型。