欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018102418049
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种文本到语音的转换方法,其特征在于,包括:

获取待转换文本对应的帧;

获取所述帧中当前帧对应音子的向量特征和文本韵律特征,以及获取所述当前帧的上一帧对应的线性谱的映射特征;

将获取的向量特征、文本韵律特征和映射特征输入预先训练的神经网络模型,获得所述当前帧对应的线性谱;

在获得所述待转换文本对应的帧的线性谱之后,根据所述待转换文本对应的帧的线性谱,获得所述待转换文本对应的语音;

所述获取所述当前帧的上一帧对应的线性谱的映射特征包括:

将所述当前帧的上一帧对应的线性谱输入由两层全连接层组成的神经网络进行映射,获得所述当前帧的上一帧对应的线性谱的映射特征。

2.根据权利要求1所述的方法,其特征在于,所述根据所述待转换文本对应的帧的线性谱,获得所述待转换文本对应的语音包括:从所述待转换文本对应的帧的线性谱中通过迭代获得所述待转换文本对应的语音的相位谱;

根据所述待转换文本对应的语音的相位谱,通过反向短时傅里叶变换算法生成所述待转换文本对应的语音。

3.根据权利要求1所述的方法,其特征在于,所述将获取的向量特征、文本韵律特征和映射特征输入预先训练的神经网络模型,获得所述当前帧对应的线性谱包括:将获取的向量特征、文本韵律特征和映射特征经过一层全连接层进行降维后,输入由至少两个存在残差连接的卷积单元组成的网络中,经过一层全连接层进行升采样后,获得所述当前帧对应的线性谱。

4.根据权利要求3所述的方法,其特征在于,所述卷积单元包括两个一维卷积核,其中一个卷积核的输出通过激活函数规整到预定区间上;所述卷积单元的输出为一个卷积核规整到预定区间上的输出结果与另一个卷积核未通过激活函数的输出结果的对应元素的乘积。

5.根据权利要求1-4任意一项所述的方法,其特征在于,所述将获取的向量特征、文本韵律特征和映射特征输入预先训练的神经网络模型,获得所述当前帧对应的线性谱之前,还包括:获取训练文本对应的帧;

获取所述训练文本对应的帧中当前帧对应音子的向量特征和文本韵律特征,以及获取所述训练文本对应的语音中所述当前帧的上一帧语音对应的线性谱的映射特征;

将获取的向量特征、文本韵律特征和映射特征输入待训练的神经网络模型,获得所述当前帧对应的线性谱;

在获得所述训练文本对应的帧的线性谱之后,根据所述训练文本对应的帧的线性谱,获得所述训练文本对应的语音;

当获得的所述训练文本对应的语音满足预定条件时,获得训练好的神经网络模型。

6.一种文本到语音的转换装置,其特征在于,包括:

获取模块,用于获取待转换文本对应的帧;获取所述帧中当前帧对应音子的向量特征和文本韵律特征,以及获取所述当前帧的上一帧对应的线性谱的映射特征;

输入模块,用于将所述获取模块获取的向量特征、文本韵律特征和映射特征输入预先训练的神经网络模型,获得所述当前帧对应的线性谱;

转换模块,用于在获得所述待转换文本对应的帧的线性谱之后,根据所述待转换文本对应的帧的线性谱,获得所述待转换文本对应的语音;

所述获取模块,具体用于将所述当前帧的上一帧对应的线性谱输入由两层全连接层组成的神经网络进行映射,获得所述当前帧的上一帧对应的线性谱的映射特征。

7.根据权利要求6所述的装置,其特征在于,

所述转换模块,具体用于从所述待转换文本对应的帧的线性谱中通过迭代获得所述待转换文本对应的语音的相位谱;根据所述待转换文本对应的语音的相位谱,通过反向短时傅里叶变换算法生成所述待转换文本对应的语音。

8.根据权利要求6所述的装置,其特征在于,

所述输入模块,具体用于将获取的向量特征、文本韵律特征和映射特征经过一层全连接层进行降维后,输入由至少两个存在残差连接的卷积单元组成的网络中,经过一层全连接层进行升采样后,获得所述当前帧对应的线性谱。

9.根据权利要求8所述的装置,其特征在于,所述卷积单元包括两个一维卷积核,其中一个卷积核的输出通过激活函数规整到预定区间上;所述卷积单元的输出为一个卷积核规整到预定区间上的输出结果与另一个卷积核未通过激活函数的输出结果的对应元素的乘积。

10.根据权利要求6-9任意一项所述的装置,其特征在于,

所述获取模块,还用于获取训练文本对应的帧;获取所述训练文本对应的帧中当前帧对应音子的向量特征和文本韵律特征,以及获取所述训练文本对应的语音中所述当前帧的上一帧语音对应的线性谱的映射特征;

所述输入模块,还用于将所述获取模块获取的向量特征、文本韵律特征和映射特征输入待训练的神经网络模型,获得所述当前帧对应的线性谱;

所述转换模块,还用于在获得所述训练文本对应的帧的线性谱之后,根据所述训练文本对应的帧的线性谱,获得所述训练文本对应的语音;

所述获取模块,还用于当获得的所述训练文本对应的语音满足预定条件时,获得训练好的神经网络模型。

11.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一所述的方法。

12.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。