欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020106743200
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于3DCNN-LSTM的说话人识别方法,其特征在于,包括以下步骤:S1、获取语音信号,并对语音信号进行包括预加重、加窗分帧、快速傅里叶变换、MFEC变换在内的半文本化处理,MFEC变换指的是梅尔滤波器组、取对数能量谱、去离散余弦变化的梅尔倒谱系数特征;

S2、将步骤S1处理后的语音信号通过堆叠多个连续帧的MFEC特征的方式将二维语谱图处理成三维数据,三维数据作为3DCNN的输入;3DCNN表示三维卷积神经网络;

S3、3DCNN从语谱图中提取说话人语音的时空特征,3DCNN中设计了一种改进的3D卷积核,3D卷积核改进的点在于设计的内部结构参数,包括卷积核的个数,卷积的步长以及内置的BN层进行优化,用于提取深层次的特征,将三维数据经过3D卷积核的卷积池化后的数据是一种序列形式,引入LSTM网络进行时序特征提取;

S4、将3DNN的输出作为LSTM模型的输入,通过LSTM提取时空特征特征的长期依赖关系,对卷积神经网络的输出进行时序排列学习说话人语音的上下文内容;

S5、模型训练优化阶段,采用优化器设置为Adam,全连接层的节点数设置为3026,使用dropout方法,将其初始值设置为0.95并运用于每一层网络,并在计算损失函数的时候,选择交叉熵损失函数;

S6、使用测试集对训练后的模型验证,调整模型的各个参数,得到最终网络模型,最后利用Softmax层进行说话人分类。

2.根据权利要求1所述的一种基于3DCNN-LSTM的说话人识别方法,其特征在于,所述步骤S1根据语音信号的短时平稳性,对其进行半文本化处理得到MFEC特征,具体步骤如下:步骤A1:将语音信号通过一个高通滤波器,增强信号的高频部分,让语音信号趋于平坦,其传递函数为H(z)=1-az-1,a取值0.95,预加重处理后的信号为x(t);

步骤A2:将语音信号分割为短时的帧窗以减少语音的边缘效应,对预加重后的信号进行分帧,变为x(m,n),n为帧长,m为帧的个数,采用汉明窗进行加窗:加窗分帧后语音信号为:sw(m,n)=x(m,n)*w(n),其中每一帧含有N个采样点;

A3:接下来先将语音数据x(n)从时域变换到频域,对加窗后的信号进行快速傅里叶变换,得到的线性频谱E(k)为:对进行傅里叶变换后的数据取其模量:

X(k)=[E(k)]2

步骤A4:将经过FFT变换得到的线性频谱通过一个Mel滤波器组转换为Mel频谱,Mel滤波器组由一系列三角形的带通滤波器Hm(k)组成,滤波器的频率响应函数表达式为:式中,f(m)表示中心频率;k表示频率;

步骤A5:对Mel滤波器的输出取对数,通过对数运算得到的对数频谱S(m)为:

3.根据权利要求2所述的一种基于3DCNN-LSTM的说话人识别方法,其特征在于,所述步骤S2将处理后语音信号转换为二维语谱图,通过堆叠多张连续帧的语谱图的方法将二维语谱图处理成三维数据,其处理步骤如下:步骤B1:对长为m秒的说话人语音信号作每间隔n毫秒的语音帧叠加作半文本化处理;

步骤B2:通过MFEC变换将B1处理后的信号从时域数据变换到频域,得到S(m)二维语谱图;

步骤B3:将说话人的多条语音作B2处理后得到三维数据,再将三维数据与3D卷积核进行卷积提取深层次的说话人特征,通过堆叠多个连续帧的语谱图组成一个立方体,然后在立方体中与3D卷积核进行卷积操作,这里的输入数据设置为Time×Frequency×C,C表示说话人的话语量。

4.根据权利要求3所述的一种基于3DCNN-LSTM的说话人识别方法,其特征在于,所述步骤S3设计的3D卷积核从三维语谱图中提取说话人语音的短期时空特征,前两层的卷积核的个数设置为16个,其大小分别为3x1x5和3x9x5的三维卷积核,对说话人语音信号的时间-频率-话语量进行三维卷积,提取说话人的深层次特征;第三和第四个卷积核的个数设置为

32,其大小分别为3x1x4,3x8x1。每两层进行pool池化处理,此外,前四层的步长分别为

1x1x1和1x2x1交替进行,同时每层网络还设置了BN层对数据进行规范化处理;

第五层和第六层的卷积核的个数设置为64,其大小分别为3x1x3和3x7x1;步长设置为

1x1x1;第七层和第八层的卷积核的个数设置为128,其大小跟步长同前两层一致,每层网络同样设置BN层,最终进行池化处理得到说话人的深层个性特征;

BN对深度神经网络中间层激活进行归一化,算法关键在于引入了两个可学习参数γ和β:一个批次中,BN是对每个特征而言的,有m个训练样本,j个维度(j个神经元节点),对第j维进行规范化:其中, 是第i层第j维的线性计算结果, μj分别表示批量均值、批量方差、批量归一化,ε是为了防止方差为0。

5.根据权利要求4所述的一种基于3DCNN-LSTM的说话人识别方法,其特征在于,所述步骤S4将3DCNN的输出作为LSTM模型的输入,提取这些时空特征的长期依赖关系,传统LSTM单元由三个门结构组成,分别是遗忘门、输入们和输出门,使用遗忘门来确定在前一时刻的单元状态中应该丢弃哪些信息,并直接参与更新单元状态,单元状态的更新算法与前一刻的隐藏层输出和当前时刻的输入有关,并将前一个时刻的单元状态作为更新当前状态的参数;

遗忘门算法:ft=σ(Wf×[ht-1,xt]+bf)

单元状态更新算法:it=σ(Wi×[ht-1,xt]+bi)

其中Ct-1和ht-1分别是前一时刻的单元状态和隐藏层输出,xt是当前时刻的输入, 是要被添加到记忆单元的候选值,Wf、Wi和WC是分别是由训练得到的遗忘门、输入门和候选单元的权重,bf、bi和bC是它们的偏差,it是 的权重系数,σ表示的是逻辑sigmoid函数:

6.根据权利要求5所述的一种基于3DCNN-LSTM的说话人识别方法,其特征在于,所述步骤S5在模型训练优化阶段,采用初始学习率为0.01,β1=0.9,β2=0.999,ε=10E-8,优化器设置为Adam,全连接层的节点数设置为3026,同时为防止训练过程中发生梯度消失的现象,使用dropout方法,将其初始值设置为0.95并运用于每一层网络,并在计算损失函数的时候,选择交叉熵损失函数;

交叉熵算法定义如下:

其中, 第j个样本的真实标签,k表示样本总数;

yj:第j个样本的网络模型的预测输出。

7.根据权利要求6所述的一种基于3DCNN-LSTM的说话人识别方法,其特征在于,所述步骤S6利用Softmax层进行说话人分类,Softmax函数的的公式如下:该式表示的数组中第i元素的Softmax值。

8.一种存储介质,所述存储介质为计算机可读存储介质,其存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以上权利要求1-7任一项所述的方法。