欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 202110301717X
申请人: 山东师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于多源注意力网络的说话人识别方法,其特征是,包括:提取待识别语音片段的性别特征;提取待识别语音片段的口音特征;

基于训练后的多源注意力网络的CNN网络,提取待识别语音片段的音色特征;

基于训练后的多源注意力网络的性别注意力网络,利用性别特征和音色特征构造性别辅助特征;

基于训练后的多源注意力网络的口音注意力网络,利用口音特征和音色特征构造口音辅助特征;

将音色特征、性别辅助特征和口音辅助特征相结合,进行说话人识别;

其中,提取待识别语音片段的性别特征;具体步骤包括:对待识别语音片段进行分帧处理;

对每一帧待识别语音提取MFCC特征,将待识别语音片段中所有帧的MFCC特征在时间方向上进行拼接,得到待识别语音片段的MFCC频谱;

以待识别语音片段的MFCC频谱作为训练后的性别分类网络的输入值;

将性别分类网络最大池化层的输出特征连接成特征矩阵,记为G,以G作为待识别语音片段的性别特征;

其中,提取待识别语音片段的口音特征;具体步骤包括:对待识别语音片段进行分帧处理;

对每一帧待识别语音提取MFCC特征,将待识别语音片段中所有帧的MFCC特征在时间方向上进行拼接,得到待识别语音片段的MFCC频谱;

以待识别语音片段的MFCC频谱作为训练后的国籍分类网络的输入值;

将国籍分类网络最大池化层的输出特征连接成特征矩阵,记为Q,以Q作为待识别语音片段的口音特征;

其中,多源注意力网络,其网络结构包括:

并列的性别注意力网络、CNN网络和口音注意力网络;

其中,CNN网络的输出端还分别与性别注意力网络和口音注意力网络连接;

性别注意力网络、CNN网络和口音注意力网络的输出端,均与特征融合单元连接,特征融合单元与全连接层连接,全连接层与输出层连接;

其中,基于训练后的多源注意力网络的CNN网络,提取待识别语音片段的音色特征;具体步骤包括:对待识别语音片段进行分帧处理;

对每一帧待识别语音提取MFCC特征,将待识别语音片段中所有帧的MFCC特征在时间方向上进行拼接,得到待识别语音片段的MFCC频谱;

基于MFCC频谱,提取音色特征;

所述基于MFCC频谱,提取音色特征;具体步骤包括:基于训练后的多源注意力网络的CNN网络,以MFCC频谱作为CNN网络的输入,将CNN网络最大池化层的输出连接成特征矩阵,记为E,以E作为待识别语音片段的音色特征;

其中,基于训练后的多源注意力网络的性别注意力网络,利用性别特征和音色特征构造性别辅助特征;具体步骤包括:T

对性别特征G进行转置操作,得到G;

T T

将转置后的性别特征G与音色特征E进行矩阵相乘,得到注意力系数矩阵A=GE;

T

对注意力系数矩阵A进行转置操作,得到A;

T T

将转置后的注意力系数矩阵A和音色特征E进行矩阵相乘,得到性别辅助特征EA;

基于训练后的多源注意力网络的口音注意力网络,利用口音特征和音色特征构造口音辅助特征;具体步骤包括:T

对口音特征Q进行转置操作,得到Q;

T T

将转置后的口音特征Q与音色特征E进行矩阵相乘,得到注意力系数矩阵B=QE;

T

对注意力系数矩阵B进行转置操作,得到B;

T T

将转置后的注意力系数矩阵B和音色特征E进行矩阵相乘,得到口音辅助特征EB;

将音色特征、性别辅助特征和口音辅助特征相结合,进行说话人识别;具体步骤包括:将音色特征、性别辅助特征和口音辅助特征进行特征融合:将音色特征E,性别辅助特T T征EA 和口音辅助特征EB在特征矩阵行方向上进行拼接,然后将拼接后的矩阵逐行进行首尾连接,形成特征融合后的特征向量R;

将融合特征R,输入到训练后的分类器中,输出说话人身份的概率分布;

根据说话人身份的概率分布,以具有最大概率值的说话人身份作为识别结果。

2.如权利要求1所述的基于多源注意力网络的说话人识别方法,其特征是,训练后的性别分类网络,训练步骤包括:构建第一训练集,所述第一训练集包括已知性别标签的语音片段;

对语音片段进行分帧处理,对每一帧提取MFCC特征,将语音片段中所有帧的MFCC特征在时间方向上进行拼接,得到语音片段的MFCC频谱,将MFCC频谱作为性别分类网络的输入值,将已知的性别标签作为性别分类网络的理想输出值,对性别分类网络进行训练,得到训练后的性别分类网络。

3.如权利要求1所述的基于多源注意力网络的说话人识别方法,其特征是,训练后的国籍分类网络,训练步骤包括:构建第二训练集,所述第二训练集包括已知国籍标签的语音片段;

对语音片段进行分帧处理,对每一帧提取MFCC特征,将语音片段中所有帧的MFCC特征在时间方向上进行拼接,得到语音片段的MFCC频谱,将MFCC频谱作为国籍分类网络的输入值,将已知的国籍标签作为国籍分类网络的理想输出值,对国籍分类网络进行训练,得到训练后的国籍分类网络。

4.如权利要求1所述的基于多源注意力网络的说话人识别方法,其特征是,训练后的多源注意力网络,训练步骤包括:构建第三训练集,所述第三训练集包括已知说话人身份的语音片段;

对第三训练集语音片段提取MFCC频谱、性别特征和口音特征;

将语音片段的MFCC频谱作为CNN网络的输入值;

将语音片段的性别特征作为性别注意力网络的输入值;

将语音片段的口音特征作为口音注意力网络的输入值;

将已知的说话人身份作为输出层的理想输出值;

对多源注意力网络进行训练,得到训练后的多源注意力网络。

5.如权利要求1所述的基于多源注意力网络的说话人识别方法,其特征是,训练后的分类器;其训练步骤包括:构建分类器;构建第四训练集,所述第四训练集为已知说话人身份的语音片段融合特征;

将语音片段融合特征作为分类器的输入值,将已知的说话人身份作为分类器的理想输出值,对分类器进行训练,得到训练后的分类器。

6.采用如权利要求1所述的基于多源注意力网络的说话人识别方法的基于多源注意力网络的说话人识别系统,其特征是,包括:性别和口音特征提取模块,其被配置为:提取待识别语音片段的性别特征;提取待识别语音片段的口音特征;

音色特征提取模块,其被配置为:基于训练后的多源注意力网络的CNN网络,提取待识别语音片段的音色特征;

性别辅助特征构造模块,其被配置为:基于训练后的多源注意力网络的性别注意力网络,利用性别特征和音色特征构造性别辅助特征;

口音辅助特征构造模块,其被配置为:基于训练后的多源注意力网络的口音注意力网络,利用口音特征和音色特征构造口音辅助特征;

识别模块,其被配置为:将音色特征、性别辅助特征和口音辅助特征相结合,进行说话人识别。

7.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1‑5任一项所述的方法。

8.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑5任一项所述的方法。