欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2015106808168
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种声学模型的生成方法,其特征在于,包括:获取个性化数据,所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的,所述个性化语音数据包括:目标发音人的语音数据和与目标发音人语音相似的相似发音人的语音数据;

获取预先生成的基准声学模型,所述基准声学模型是根据已有的大规模样本生成的;

根据所述个性化数据和所述基准声学模型进行自适应模型训练,生成个性化声学模型;

所述获取个性化数据,包括:

获取目标发音人的语音数据;

对所述目标发音人的语音数据进行特征提取;

根据提取的特征,在预设生成的多说话人模型中获取匹配发音人;

当所述匹配发音人与所述目标发音人的相似度大于门限值时,确定所述匹配发音人为相似发音人;

从多说话人语音数据库中获取所述相似发音人的语音数据作为相似语音数据;

其中,所述多说话人模型是预先对作为样本的语音数据进行特征提取以及根据提取后的特征进行算法训练后生成的。

2.根据权利要求1所述的方法,其特征在于,所述获取个性化数据,包括:获取个性化语音数据,对所述个性化语音数据进行数据加工,以及,对数据加工后的个性化语音数据进行特征提取;以及,获取与所述个性化语音数据对应的个性化文本标注数据,所述个性化文本标注数据是对所述个性化语音数据对应的个性化文本进行标注后得到的。

3.根据权利要求2所述的方法,其特征在于,所述与所述个性化语音数据对应的个性化文本标注数据包括:与所述目标发音人的语音数据对应的文本标注数据,以及,与所述相似语音数据对应的文本标注数据;

所述获取与所述个性化语音数据对应的个性化文本标注数据,包括:从预先生成的多说话人语音数据库中,获取与相似语音数据对应的文本标注数据;

从预先生成的多说话人语音数据库中或者采用人工标注或自动标注的方式,获取与目标发音人的语音数据对应的文本标注数据。

4.根据权利要求3所述的方法,其特征在于,当与目标发音人的语音数据对应的文本标注数据是采用人工标注或自动标注方式得到的,所述方法还包括:将所述目标发音人的语音数据和与目标发音人的语音数据对应的文本标注数据关联保存到所述多说话人语音数据库中。

5.根据权利要求1-4任一项所述的方法,其特征在于,所述基准声学模型是基准神经网络模型,所述自适应模型训练是自适应神经网络模型训练,所述个性化声学模型是个性化神经网络模型。

6.一种语音合成方法,其特征在于,包括:对输入文本进行处理,得到处理后的文本;

获取预先生成的个性化声学模型;

根据所述个性化声学模型和处理后的文本进行声学参数生成;

根据生成的声学参数进行语音合成,得到个性化合成语音;

其中,所述个性化声学模型采用如权利要求1-5任一项所述的方法生成。

7.一种声学模型的生成装置,其特征在于,包括:第一获取模块,用于获取个性化数据,所述个性化数据是根据个性化语音数据和对应的个性化文本数据进行处理后得到的,所述个性化语音数据包括:目标发音人的语音数据和与目标发音人语音相似的相似发音人的语音数据;

第二获取模块,用于获取预先生成的基准声学模型,所述基准声学模型是根据已有的大规模样本生成的;

生成模块,用于根据所述个性化数据和所述基准声学模型进行自适应模型训练,生成个性化声学模型;

其中,所述第一获取模块用于获取个性化语音数据,包括:获取目标发音人的语音数据;

对所述目标发音人的语音数据进行特征提取;

根据提取的特征,在预设生成的多说话人模型中获取匹配发音人;

当所述匹配发音人与所述目标发音人的相似度大于门限值时,确定所述匹配发音人为相似发音人;

从多说话人语音数据库中获取所述相似发音人的语音数据作为相似语音数据;

其中,所述多说话人模型是预先对作为样本的语音数据进行特征提取以及根据提取后的特征进行算法训练后生成的。

8.一种语音合成装置,其特征在于,包括:处理模块,用于对输入文本进行处理,得到处理后的文本;

获取模块,用于获取预先生成的个性化声学模型;

生成模块,用于根据所述个性化声学模型和处理后的文本进行声学参数生成;

合成模块,用于根据生成的声学参数进行语音合成,得到个性化合成语音;

其中,所述个性化声学模型采用如权利要求1-5任一项所述的方法生成。