知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于多源注意力网络的说话人识别方法及系统

￥38400

专利号： 202110301717X

申请人：山东师范大学

专利类型：发明专利

专利状态：已下证

专利领域：乐器；声学

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.基于多源注意力网络的说话人识别方法，其特征是，包括：提取待识别语音片段的性别特征；提取待识别语音片段的口音特征；

基于训练后的多源注意力网络的CNN网络，提取待识别语音片段的音色特征；

基于训练后的多源注意力网络的性别注意力网络，利用性别特征和音色特征构造性别辅助特征；

基于训练后的多源注意力网络的口音注意力网络，利用口音特征和音色特征构造口音辅助特征；

将音色特征、性别辅助特征和口音辅助特征相结合，进行说话人识别。

2.如权利要求1所述的基于多源注意力网络的说话人识别方法，其特征是，提取待识别语音片段的性别特征；具体步骤包括：对待识别语音片段进行分帧处理；

对每一帧待识别语音提取MFCC特征，将待识别语音片段中所有帧的MFCC特征在时间方向上进行拼接，得到待识别语音片段的MFCC频谱；

以待识别语音片段的MFCC频谱作为训练后的性别分类网络的输入值；

将性别分类网络最大池化层的输出特征连接成特征矩阵，记为G，以G作为待识别语音片段的性别特征；

或者，

所述训练后的性别分类网络，训练步骤包括：构建第一训练集，所述第一训练集包括已知性别标签的语音片段；

对语音片段进行分帧处理，对每一帧提取MFCC特征，将语音片段中所有帧的MFCC特征在时间方向上进行拼接，得到语音片段的MFCC频谱，将MFCC频谱作为性别分类网络的输入值，将已知的性别标签作为性别分类网络的理想输出值，对性别分类网络进行训练，得到训练后的性别分类网络。

3.如权利要求1所述的基于多源注意力网络的说话人识别方法，其特征是，提取待识别语音片段的口音特征；具体步骤包括：对待识别语音片段进行分帧处理；

对每一帧待识别语音提取MFCC特征，将待识别语音片段中所有帧的MFCC特征在时间方向上进行拼接，得到待识别语音片段的MFCC频谱；

以待识别语音片段的MFCC频谱作为训练后的国籍分类网络的输入值；

将国籍分类网络最大池化层的输出特征连接成特征矩阵，记为Q，以Q作为待识别语音片段的口音特征；

或者，

所述训练后的国籍分类网络，训练步骤包括：构建第二训练集，所述第二训练集包括已知国籍标签的语音片段；

对语音片段进行分帧处理，对每一帧提取MFCC特征，将语音片段中所有帧的MFCC特征在时间方向上进行拼接，得到语音片段的MFCC频谱，将MFCC频谱作为国籍分类网络的输入值，将已知的国籍标签作为国籍分类网络的理想输出值，对国籍分类网络进行训练，得到训练后的国籍分类网络。

4.如权利要求1所述的基于多源注意力网络的说话人识别方法，其特征是，多源注意力网络，其网络结构包括：

并列的性别注意力网络、CNN网络和口音注意力网络；

其中，CNN网络的输出端还分别与性别注意力网络和口音注意力网络连接；

性别注意力网络、CNN网络和口音注意力网络的输出端，均与特征融合单元连接，特征融合单元与全连接层连接，全连接层与输出层连接。

5.如权利要求1所述的基于多源注意力网络的说话人识别方法，其特征是，训练后的多源注意力网络，训练步骤包括：构建第三训练集，所述第三训练集包括已知说话人身份的语音片段；

对第三训练集语音片段提取MFCC频谱、性别特征和口音特征；

将语音片段的MFCC频谱作为CNN网络的输入值；

将语音片段的性别特征作为性别注意力网络的输入值；

将语音片段的口音特征作为口音注意力网络的输入值；

将已知的说话人身份作为输出层的理想输出值；

对多源注意力网络进行训练，得到训练后的多源注意力网络。

6.如权利要求1所述的基于多源注意力网络的说话人识别方法，其特征是，基于训练后的多源注意力网络的CNN网络，提取待识别语音片段的音色特征；具体步骤包括：对待识别语音片段进行分帧处理；

对每一帧待识别语音提取MFCC特征，将待识别语音片段中所有帧的MFCC特征在时间方向上进行拼接，得到待识别语音片段的MFCC频谱；

基于MFCC频谱，提取音色特征；

所述基于MFCC频谱，提取音色特征；具体步骤包括：基于训练后的多源注意力网络的CNN网络，以MFCC频谱作为CNN网络的输入，将CNN网络最大池化层的输出连接成特征矩阵，记为E，以E作为待识别语音片段的音色特征。

7.如权利要求1所述的基于多源注意力网络的说话人识别方法，其特征是，基于训练后的多源注意力网络的性别注意力网络，利用性别特征和音色特征构造性别辅助特征；具体步骤包括：

对性别特征G进行转置操作，得到G；

T T

将转置后的性别特征G与音色特征E进行矩阵相乘，得到注意力系数矩阵A＝GE；

对注意力系数矩阵A进行转置操作，得到A；

T T

将转置后的注意力系数矩阵A和音色特征E进行矩阵相乘，得到性别辅助特征EA；

或者，

基于训练后的多源注意力网络的口音注意力网络，利用口音特征和音色特征构造口音辅助特征；具体步骤包括：

对口音特征Q进行转置操作，得到Q；

T T

将转置后的口音特征Q与音色特征E进行矩阵相乘，得到注意力系数矩阵B＝QE；

对注意力系数矩阵B进行转置操作，得到B；

T T

将转置后的注意力系数矩阵B和音色特征E进行矩阵相乘，得到口音辅助特征EB；

或者，

将音色特征、性别辅助特征和口音辅助特征相结合，进行说话人识别；具体步骤包括：将音色特征、性别辅助特征和口音辅助特征进行特征融合：将音色特征E，性别辅助特T T

征EA 和口音辅助特征EB在特征矩阵行方向上进行拼接，然后将拼接后的矩阵逐行进行首尾连接，形成特征融合后的特征向量R；

将融合特征R，输入到训练后的分类器中，输出说话人身份的概率分布；

根据说话人身份的概率分布，以具有最大概率值的说话人身份作为识别结果；

或者，

所述训练后的分类器；其训练步骤包括：构建分类器；构建第四训练集，所述第四训练集为已知说话人身份的语音片段融合特征；

将语音片段融合特征作为分类器的输入值，将已知的说话人身份作为分类器的理想输出值，对分类器进行训练，得到训练后的分类器。

8.基于多源注意力网络的说话人识别系统，其特征是，包括：性别和口音特征提取模块，其被配置为：提取待识别语音片段的性别特征；提取待识别语音片段的口音特征；

音色特征提取模块，其被配置为：基于训练后的多源注意力网络的CNN网络，提取待识别语音片段的音色特征；

性别辅助特征构造模块，其被配置为：基于训练后的多源注意力网络的性别注意力网络，利用性别特征和音色特征构造性别辅助特征；

口音辅助特征构造模块，其被配置为：基于训练后的多源注意力网络的口音注意力网络，利用口音特征和音色特征构造口音辅助特征；

识别模块，其被配置为：将音色特征、性别辅助特征和口音辅助特征相结合，进行说话人识别。

9.一种电子设备，其特征是，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述权利要求1‑7任一项所述的方法。

10.一种计算机可读存储介质，其特征是，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1‑7任一项所述的方法。

推荐专利

一种基于注意力神经网络的小样本学习图像识别方法

发明专利

￥32200

一种基于3DCNN-LSTM的说话人识别方法及存储介质

发明专利

￥28000

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们