知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

文本到语音的转换方法、装置和计算机设备

￥28000

专利号： 2018102418049

申请人：百度在线网络技术(北京)有限公司

专利类型：发明专利

专利状态：已下证

专利领域：乐器；声学

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种文本到语音的转换方法，其特征在于，包括：

获取待转换文本对应的帧；

获取所述帧中当前帧对应音子的向量特征和文本韵律特征，以及获取所述当前帧的上一帧对应的线性谱的映射特征；

将获取的向量特征、文本韵律特征和映射特征输入预先训练的神经网络模型，获得所述当前帧对应的线性谱；

在获得所述待转换文本对应的帧的线性谱之后，根据所述待转换文本对应的帧的线性谱，获得所述待转换文本对应的语音；

所述获取所述当前帧的上一帧对应的线性谱的映射特征包括：

将所述当前帧的上一帧对应的线性谱输入由两层全连接层组成的神经网络进行映射，获得所述当前帧的上一帧对应的线性谱的映射特征。

2.根据权利要求1所述的方法，其特征在于，所述根据所述待转换文本对应的帧的线性谱，获得所述待转换文本对应的语音包括：从所述待转换文本对应的帧的线性谱中通过迭代获得所述待转换文本对应的语音的相位谱；

根据所述待转换文本对应的语音的相位谱，通过反向短时傅里叶变换算法生成所述待转换文本对应的语音。

3.根据权利要求1所述的方法，其特征在于，所述将获取的向量特征、文本韵律特征和映射特征输入预先训练的神经网络模型，获得所述当前帧对应的线性谱包括：将获取的向量特征、文本韵律特征和映射特征经过一层全连接层进行降维后，输入由至少两个存在残差连接的卷积单元组成的网络中，经过一层全连接层进行升采样后，获得所述当前帧对应的线性谱。

4.根据权利要求3所述的方法，其特征在于，所述卷积单元包括两个一维卷积核，其中一个卷积核的输出通过激活函数规整到预定区间上；所述卷积单元的输出为一个卷积核规整到预定区间上的输出结果与另一个卷积核未通过激活函数的输出结果的对应元素的乘积。

5.根据权利要求1-4任意一项所述的方法，其特征在于，所述将获取的向量特征、文本韵律特征和映射特征输入预先训练的神经网络模型，获得所述当前帧对应的线性谱之前，还包括：获取训练文本对应的帧；

获取所述训练文本对应的帧中当前帧对应音子的向量特征和文本韵律特征，以及获取所述训练文本对应的语音中所述当前帧的上一帧语音对应的线性谱的映射特征；

将获取的向量特征、文本韵律特征和映射特征输入待训练的神经网络模型，获得所述当前帧对应的线性谱；

在获得所述训练文本对应的帧的线性谱之后，根据所述训练文本对应的帧的线性谱，获得所述训练文本对应的语音；

当获得的所述训练文本对应的语音满足预定条件时，获得训练好的神经网络模型。

6.一种文本到语音的转换装置，其特征在于，包括：

获取模块，用于获取待转换文本对应的帧；获取所述帧中当前帧对应音子的向量特征和文本韵律特征，以及获取所述当前帧的上一帧对应的线性谱的映射特征；

输入模块，用于将所述获取模块获取的向量特征、文本韵律特征和映射特征输入预先训练的神经网络模型，获得所述当前帧对应的线性谱；

转换模块，用于在获得所述待转换文本对应的帧的线性谱之后，根据所述待转换文本对应的帧的线性谱，获得所述待转换文本对应的语音；

所述获取模块，具体用于将所述当前帧的上一帧对应的线性谱输入由两层全连接层组成的神经网络进行映射，获得所述当前帧的上一帧对应的线性谱的映射特征。

7.根据权利要求6所述的装置，其特征在于，