1.一种用于语音合成的韵律层级模型训练方法,其特征在于,包括以下步骤:对海量无标注语料数据进行训练获得单字的字向量;
根据所述字向量以及韵律标注数据获取训练数据对应的文本特征及标注,其中,所述训练数据用于训练所述韵律层级模型;以及基于深度神经网络和双向LSTM神经网络,根据所述训练数据的文本特征、标注对所述韵律层级模型进行训练。
2.如权利要求1所述的方法,其特征在于,还包括:基于分词系统对所述训练数据进行分词,得到对应的分词边界建议及词性;
其中,根据所述字向量以及韵律标注数据获取训练数据对应的文本特征及标注,具体包括:根据所述字向量、所述分词边界建议及词性获取所述训练数据的所述文本特征,并根据所述字向量以及所述韵律标注数据获取所述训练数据的所述标注。
3.如权利要求1所述的方法,其特征在于,基于深度神经网络和双向LSTM神经网络,根据所述训练数据的文本特征、标注对所述韵律层级模型进行训练,具体包括:基于深度神经网络对所述训练数据的文本特征以及标注进行进一步抽象,并基于双向LSTM神经网络对所述训练数据的上下文特征进行融合,以获得不同文本特征对应的权重参数。
4.一种使用如权利要求1至3中任一项所述的韵律层级模型进行语音合成的方法,其特征在于,包括:获取待预测文本,并提取所述待预测文本的文本特征;
将所述文本特征输入所述韵律层级模型,并根据所述韵律层级模型对所述待预测文本进行韵律预测;
进一步对所述待预测文本进行声学预测,以生成声学参数序列;以及根据所述声学参数序列生成语音合成结果。
5.如权利要求4所述的方法,其特征在于,根据所述韵律层级模型对所述待预测文本进行韵律预测,具体包括:基于深度神经网络对所述文本特征进行进一步抽象,并基于双向LSTM神经网络对所述待预测文本的上下文特征进行融合,以获得不同文本特征对应的权重参数;
根据所述不同文本特征对应的权重参数获得所述文本特征所属的各韵律层级的概率,并将最大概率对应的韵律层级作为所述待预测文本对应的韵律层级。
6.一种用于语音合成的韵律层级模型训练装置,其特征在于,包括:获取模块,用于对海量无标注语料数据进行训练获得单字的字向量;
生成模块,用于根据所述字向量以及韵律标注数据获取训练数据对应的文本特征及标注,其中,所述训练数据用于训练所述韵律层级模型;以及训练模块,用于基于深度神经网络和双向LSTM神经网络,根据所述训练数据的文本特征、标注对所述韵律层级模型进行训练。
7.如权利要求6所述的装置,其特征在于,还包括:分词模块,用于基于分词系统对所述训练数据进行分词,得到对应的分词边界建议及词性;
其中,所述生成模块具体用于:根据所述字向量、所述分词边界建议及词性获取所述训练数据的所述文本特征,并根据所述字向量以及所述韵律标注数据获取所述训练数据的所述标注。
8.如权利要求6所述的装置,其特征在于,所述训练模块具体用于:基于深度神经网络对所述训练数据的文本特征以及标注进行进一步抽象,并基于双向LSTM神经网络对所述训练数据的上下文特征进行融合,以获得不同文本特征对应的权重参数。
9.一种使用如权利要求6至8中任一项所述的韵律层级模型进行语音合成的装置,其特征在于,包括:提取模块,用于获取待预测文本,并提取所述待预测文本的文本特征;
第一预测模块,用于将所述文本特征输入所述韵律层级模型,并根据所述韵律层级模型对所述待预测文本进行韵律预测;
第二预测模块,用于进一步对所述待预测文本进行声学预测,以生成声学参数序列;以及生成模块,用于根据所述声学参数序列生成语音合成结果。
10.如权利要求9所述的装置,其特征在于,所述第一预测模块具体用于:基于深度神经网络对所述文本特征进行进一步抽象,并基于双向LSTM神经网络对所述待预测文本的上下文特征进行融合,以获得不同文本特征对应的权重参数;
根据所述不同文本特征对应的权重参数获得所述文本特征所属的各韵律层级的概率,并将最大概率对应的韵律层级作为所述待预测文本对应的韵律层级。