欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023109868076
申请人: 成都信息工程大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多层次特征融合的短语音说话人识别方法,其特征在于,包括:通过对包含目标短语音说话人的语音数据进行特征提取预处理,分别提取所述语音数据中的声学特征、韵律特征以及深层特征;

通过对所述声学特征、所述韵律特征以及所述深层特征分别进行优化处理,得到优化后的声学特征、优化后的韵律特征以及优化后的深层特征;

通过对所述优化后的声学特征、所述优化后的韵律特征以及所述优化后的深层特征进行融合处理,得到融合处理后的多通道特征;

将所述融合处理后的多通道特征输入至训练好的深度神经网络模型中得到特征相似度值,并根据所述特征相似度值确定所述语音数据对应的目标短语音说话人;

所述得到优化后的声学特征包括:

利用所述声学特征生成声学特征图,通过对所述声学特征图在频率维度上进行最大池化和平均池化处理,并在通道维度上进行叠加处理,得到叠加后的二通道声学特征图;

将所述叠加后的二通道声学特征图进行卷积,并利用激活函数Sigmoid计算不同频率对应的权重;

将所生成的声学特征图乘以对应的频率权重,得到优化后的声学特征;

所述得到优化后的韵律特征包括:

利用所述韵律特征生成韵律特征图,通过对所述韵律特征图在时间维度上进行最大池化和平均池化处理,并在通道维度上进行叠加处理,得到叠加后的二通道韵律特征图;

将所述叠加后的二通道韵律特征图进行卷积,并利用激活函数Sigmoid计算不同时间域对应的权重;

将所生成的韵律特征图乘以对应的时间域权重,得到优化后的韵律特征;

所述得到优化后的深层特征包括:

利用所述深层特征生成深层特征图,通过对所述深层特征图分别在其横轴和纵轴上进行最大池化和平均池化处理,并在通道维度上进行叠加处理,得到叠加后的二通道深层横轴特征图和纵轴特征图;

将所述叠加后的二通道深层横轴特征图和纵轴特征图进行卷积,并利用激活函数Sigmoid计算不同横轴对应的权重和不同纵轴对应的权重;

将所生成的深层特征图乘以对应的横轴权重和纵轴权重,得到优化后的深层特征;

所述得到融合处理后的多通道特征包括:

通过对所述优化后的声学特征、所述优化后的韵律特征以及所述优化后的深层特征在通道维度上进行叠加处理,得到叠加后的多通道特征图;

将所述叠加后的多通道特征图在空间维度上进行全局平均池化和全局最大池化,并通过由两个全连接层构成的多层感知机学习通道维度的特征和各个通道的重要性,得到全局平均池化且经过多层感知机作用后的第一结果和全局最大池化且经过多层感知机作用后的第二结果;

将所述第一结果和所述第二结果进行相加操作,经过Sigmoid激活函数获取各个通道对应权重,并将所述叠加后的多通道特征图乘以对应的通道权重,得到融合处理后多通道特征。

2.根据权利要求1所述的方法,其特征在于,通过对包含目标短语音说话人的语音数据进行特征提取预处理,提取所述语音数据中的声学特征包括:通过对所述语音数据进行预处理,得到序列语音帧

通过对所述序列语音帧进行快速傅氏变换FFT处理,得到线性频谱,并对所述线性频谱进行取模处理,得到功率谱;

利用Mel滤波器组对所述功率谱进行频率转换,得到Mel频率,并对所述Mel频率进行对数计算,得到Fbank特征参数,并将所述Fbank特征参数作为声学特征。

3.根据权利要求2所述的方法,其特征在于,通过对包含目标短语音说话人的语音数据进行特征提取预处理,提取所述语音数据中的韵律特征包括:通过对所述语音数据进行预处理,得到序列语音帧

通过对所述序列语音帧进行快速傅氏变换FFT处理,得到线性频谱,并对所述线性频谱进行对数计算,得到对数幅值谱;

将所述对数幅值谱通过快速傅里叶逆变换获得倒谱序列并加窗,并在包络线上寻找极大值获得相应的共振峰特征参数,并将所述共振峰特征参数作为韵律特征。

4.根据权利要求3所述的方法,其特征在于,通过对包含目标短语音说话人的语音数据进行特征提取预处理,提取所述语音数据中的深层特征包括:加载自监督语音预训练模型,将所述语音数据输入到所述自监督语音预训练模型,并将所述自监督语音预训练模型中最后一层隐藏层输出的向量作为深层特征。

5.根据权利要求1所述的方法,其特征在于,所述训练好的深度神经网络模型包括:获取多个已标签短语音说话人的语音数据,并根据所述每个已标签短语音说话人的语音数据,得到每个已标签短语音说话人融合处理后多通道特征;

利用所述每个已标签短语音说话人融合处理后多通道特征对深度神经网络模型进行训练,得到训练后的深度神经网络模型。