欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017104158145
申请人: 西北师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种跨语言情感语音合成方法,其特征在于,包括以下步骤:

建立上下文相关标注格式和上下文相关聚类问题集,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件;分别对所述中性第一语言训练语料库和所述中性第二语言训练语料库进行声学参数提取,获得所述中性第一语言训练语料库对应的第一语言声学参数、所述中性第二语言训练语料库对应的第二语言声学参数;

根据所述上下文相关标注格式和所述上下文相关聚类问题集对多说话人的目标情感普通话训练语料库进行上下文相关文本标注,获得目标情感普通话标注文件;对所述目标情感普通话训练语料库进行声学参数提取,获得目标情感声学参数;

根据所述第一语言标注文件、所述第二语言标注文件、所述目标情感普通话标注文件、所述第一语言声学参数、所述第二语言声学参数和所述目标情感声学参数确定多说话人目标情感平均声学模型;

对第一语言或/和第二语言的待合成文件进行上下文相关文本标注获得待合成标注文件;

将所述待合成标注文件输入所述多说话人目标情感平均声学模型获得第一语言或/和第二语言目标情感语音合成文件。

2.根据权利要求1所述的跨语言情感语音合成方法,其特征在于,所述建立上下文相关标注格式和上下文相关聚类问题集,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件,具体步骤包括:建立第一语言标注规则和第二语言标注规则;

根据第一语言标注规则和第二语言标注规则确定上下文相关标注格式,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件;

根据第一语言和第二语言的相似性,建立上下文相关聚类问题集。

3.根据权利要求2所述的跨语言情感语音合成方法,其特征在于,所述建立第一语言标注规则和第二语言标注规则,具体步骤包括:所述建立第一语言标注规则,具体步骤包括:

将SAMPA-SC普通话机读音标作为所述第一语言标注规则;

所述建立第二语言标注规则,具体步骤包括:

以国际音标为参考,基于SAMPA-SC普通话机读音标,获得输入第二语言拼音的国际音标;

判断所述第二语言拼音的国际音标与第一语言拼音的国际音标是否一致;若一致,则直接采用SAMPA-SC普通话机读音标来标记第二语言拼音;否,则按照简单化原则,利用自定义的未使用的键盘符号标记。

4.根据权利要求3所述的跨语言情感语音合成方法,其特征在于,所述根据第一语言标注规则和第二语言标注规则确定上下文相关标注格式,具体步骤包括:根据第一语言和第二语言的语法规则知识库和语法词典,对输入的第一语言和第二语言不规范的文本进行文本规范化、语法分析和韵律结构分析获得规范文本,韵律词、短语的长度信息,韵律边界信息,词语相关信息,声调信息;

将所述规范文本带入所述第一语言标注规则获得第一语言的单音素标注文件;或将所述规范文本带入所述第二语言标注规则获得第二语言的单音素标注文件;

根据韵律词、短语的长度信息,韵律边界信息,词语相关信息,声调信息和单音素标注文件确定上下文相关标注格式。

5.根据权利要求1所述的跨语言情感语音合成方法,其特征在于,所述根据第一语言标注文件、第二语言标注文件、目标情感普通话标注文件、第一语言声学参数、第二语言声学参数和目标情感声学参数确定多说话人目标情感平均声学模型,具体步骤包括:将第一语言标注文件、第二语言标注文件、第一语言声学参数、第二语言声学参数作为训练集,基于自适应模型,通过说话人自适应训练,获得混合语言的中性平均声学模型;

根据混合语言的中性平均声学模型,将目标情感普通话标注文件、目标情感声学参数作为测试集,通过说话人自适应变换,获得多说话人目标情感平均声学模型。

6.根据权利要求5所述的跨语言情感语音合成方法,其特征在于,所述根据混合语言的中性平均声学模型,将目标情感普通话标注文件、目标情感声学参数作为测试集,通过说话人自适应变换,获得多说话人目标情感普通话说话人目标情感平均声学模型的具体步骤为:采用约束最大似然线性回归算法,计算说话人的状态时长概率分布和状态输出概率分布的协方差矩阵和均值向量,用一组状态时长分布和状态输出分布的变换矩阵将中性平均声学模型的协方差矩阵和均值向量变换为目标说话人模型,具体公式为:pi(d)=N(d;αmi-β,ασi2α)=|α-1|N(αψ;mi,σi2)   (7)bi(o)=N(o;Aui-b,AΣiAT)=|A-1|N(Wξ;ui,Σi)    (8)其中,i为状态,d为状态时长,N为常数,pi(d)为状态时长的变换方程,mi为时长分布均值,σi2为方差,ψ=[d,1]T,o为特征征向量,ξ=[oT,1],ui为状态输出分布均值,∑i为对角协方差矩阵,X=[α-1,β-1]为状态时长概率密度分布的变换矩阵,W=[A-1,b-1]为目标说话人状态输出概率密度分布的线性变换矩阵;

通过基于MSD-HSMM的自适应变换算法,可对语音数据的基频、频谱和时长参数进行变换和归一化;对于长度为T的自适应数据O,可变换Λ=(W,X)进行最大似然估计:其中,λ为MSD-HSMM的参数集,O为长度为T的自适应数据, 为最大

似然估计;

对转化和归一化后的时长、频谱和基频参数进行最大似然估计,采用最大后验概率算法对说话人相关模型进行更新和修正,具体公式为:MAP估计:

其中,t为时间,λ为给定的MSD-HSMM参数集,T为长度,o为长度为T时自适应数据i为状态,d为状态时长,N为常数,s为训练语音数据模型,ktd(i)为状态i下连续观测序列ot-d+

1...ot的概率,αt(i)为向前概率,βt(i)为向后概率, 和 为线性回归变换后的均值向量,ω为状态输出的MAP估计参数,τ为时长分布MAP估计参数, 和 分别为自适应向量 和的加权平均MAP估计值。

7.一种跨语言情感语音合成系统,其特征在于,包括:

语言语料库文本标注、参数提取模块,用于建立上下文相关标注格式和上下文相关聚类问题集,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件;用于分别对所述中性第一语言训练语料库和所述中性第二语言训练语料库进行声学参数提取,获得所述中性第一语言训练语料库对应的第一语言声学参数、所述中性第二语言训练语料库对应的第二语言声学参数;

目标情感语料库文本标注、参数提取模块,用于根据所述上下文相关标注格式和所述上下文相关聚类问题集对多说话人的目标情感普通话训练语料库进行上下文相关文本标注,获得目标情感普通话标注文件;对所述目标情感普通话训练语料库进行声学参数提取,获得目标情感声学参数;

目标情感平均声学模型确定模块,用于根据所述第一语言标注文件、所述第二语言标注文件、所述目标情感普通话标注文件、所述第一语言声学参数、所述第二语言声学参数和所述目标情感声学参数确定多说话人目标情感平均声学模型;

待合成标注文件确定模块,用于对第一语言或/和第二语言的待合成文件进行上下文相关文本标注获得待合成标注文件;

语音合成文件确定模块,用于将所述待合成标注文件输入所述多说话人目标情感平均声学模型获得第一语言或/和第二语言目标情感语音合成文件。

8.根据权利要求7所述的跨语言情感语音合成系统,其特征在于,所述语言语料库文本标注模块,具体包括:标注规则建立子模块,用于建立第一语言标注规则和第二语言标注规则;

语言语料库文本标注子模块,用于根据第一语言标注规则和第二语言标注规则确定上下文相关标注格式,分别对多说话人的中性第一语言训练语料库、单说话人的中性第二语言训练语料库进行上下文相关文本标注,获得所述中性第一语言训练语料库对应的第一语言标注文件、所述中性第二语言训练语料库对应的第二语言标注文件;

标音系统、问题集建立子模块,用于根据第一语言和第二语言的相似性,建立上下文相关聚类问题集。

9.根据权利要求7所述的跨语言情感语音合成系统,其特征在于,所述目标情感平均声学模型确定模块,具体包括:混合语言的中性平均声学模型确定子模块,用于将藏语标注文件、汉语标注文件、第一语言声学参数、第二语言声学参数作为训练集,基于自适应模型,通过说话人自适应训练,获得混合语言的中性平均声学模型;

目标情感平均声学模型确定子模块,用于根据混合语言的中性平均声学模型,将目标情感普通话标注文件、目标情感声学参数作为测试集,通过说话人自适应变换,获得多说话人目标情感平均声学模型。