知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于3DCNN-LSTM的说话人识别方法及存储介质

￥28000

专利号： 2020106743200

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：乐器；声学

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于3DCNN-LSTM的说话人识别方法，其特征在于，包括以下步骤：S1、获取语音信号，并对语音信号进行包括预加重、加窗分帧、快速傅里叶变换、MFEC变换在内的半文本化处理，MFEC变换指的是梅尔滤波器组、取对数能量谱、去离散余弦变化的梅尔倒谱系数特征；

S2、将步骤S1处理后的语音信号通过堆叠多个连续帧的MFEC特征的方式将二维语谱图处理成三维数据，三维数据作为3DCNN的输入；3DCNN表示三维卷积神经网络；

S3、3DCNN从语谱图中提取说话人语音的时空特征，3DCNN中设计了一种改进的3D卷积核，3D卷积核改进的点在于设计的内部结构参数，包括卷积核的个数，卷积的步长以及内置的BN层进行优化，用于提取深层次的特征，将三维数据经过3D卷积核的卷积池化后的数据是一种序列形式，引入LSTM网络进行时序特征提取；

S4、将3DNN的输出作为LSTM模型的输入，通过LSTM提取时空特征特征的长期依赖关系，对卷积神经网络的输出进行时序排列学习说话人语音的上下文内容；

S5、模型训练优化阶段，采用优化器设置为Adam，全连接层的节点数设置为3026，使用dropout方法，将其初始值设置为0.95并运用于每一层网络，并在计算损失函数的时候，选择交叉熵损失函数；

S6、使用测试集对训练后的模型验证，调整模型的各个参数，得到最终网络模型，最后利用Softmax层进行说话人分类。

2.根据权利要求1所述的一种基于3DCNN-LSTM的说话人识别方法，其特征在于，所述步骤S1根据语音信号的短时平稳性，对其进行半文本化处理得到MFEC特征，具体步骤如下：步骤A1：将语音信号通过一个高通滤波器，增强信号的高频部分，让语音信号趋于平坦，其传递函数为H(z)＝1-az-1，a取值0.95，预加重处理后的信号为x(t)；

步骤A2：将语音信号分割为短时的帧窗以减少语音的边缘效应，对预加重后的信号进行分帧，变为x(m,n)，n为帧长，m为帧的个数，采用汉明窗进行加窗：加窗分帧后语音信号为：sw(m,n)＝x(m,n)*w(n)，其中每一帧含有N个采样点；

A3：接下来先将语音数据x(n)从时域变换到频域，对加窗后的信号进行快速傅里叶变换，得到的线性频谱E(k)为：对进行傅里叶变换后的数据取其模量：

X(k)＝[E(k)]2

步骤A4：将经过FFT变换得到的线性频谱通过一个Mel滤波器组转换为Mel频谱，Mel滤波器组由一系列三角形的带通滤波器Hm(k)组成，滤波器的频率响应函数表达式为：式中，f(m)表示中心频率；k表示频率；

步骤A5：对Mel滤波器的输出取对数，通过对数运算得到的对数频谱S(m)为：

3.根据权利要求2所述的一种基于3DCNN-LSTM的说话人识别方法，其特征在于，所述步骤S2将处理后语音信号转换为二维语谱图，通过堆叠多张连续帧的语谱图的方法将二维语谱图处理成三维数据，其处理步骤如下：步骤B1：对长为m秒的说话人语音信号作每间隔n毫秒的语音帧叠加作半文本化处理；

步骤B2：通过MFEC变换将B1处理后的信号从时域数据变换到频域，得到S(m)二维语谱图；

步骤B3：将说话人的多条语音作B2处理后得到三维数据，再将三维数据与3D卷积核进行卷积提取深层次的说话人特征，通过堆叠多个连续帧的语谱图组成一个立方体，然后在立方体中与3D卷积核进行卷积操作，这里的输入数据设置为Time×Frequency×C，C表示说话人的话语量。

4.根据权利要求3所述的一种基于3DCNN-LSTM的说话人识别方法，其特征在于，所述步骤S3设计的3D卷积核从三维语谱图中提取说话人语音的短期时空特征，前两层的卷积核的个数设置为16个，其大小分别为3x1x5和3x9x5的三维卷积核，对说话人语音信号的时间-频率-话语量进行三维卷积，提取说话人的深层次特征；第三和第四个卷积核的个数设置为

32，其大小分别为3x1x4，3x8x1。每两层进行pool池化处理，此外，前四层的步长分别为

1x1x1和1x2x1交替进行，同时每层网络还设置了BN层对数据进行规范化处理；

第五层和第六层的卷积核的个数设置为64，其大小分别为3x1x3和3x7x1；步长设置为

1x1x1；第七层和第八层的卷积核的个数设置为128，其大小跟步长同前两层一致，每层网络同样设置BN层，最终进行池化处理得到说话人的深层个性特征；

BN对深度神经网络中间层激活进行归一化，算法关键在于引入了两个可学习参数γ和β：一个批次中，BN是对每个特征而言的，有m个训练样本，j个维度(j个神经元节点)，对第j维进行规范化：其中，是第i层第j维的线性计算结果， μj分别表示批量均值、批量方差、批量归一化，ε是为了防止方差为0。

5.根据权利要求4所述的一种基于3DCNN-LSTM的说话人识别方法，其特征在于，所述步骤S4将3DCNN的输出作为LSTM模型的输入，提取这些时空特征的长期依赖关系，传统LSTM单元由三个门结构组成，分别是遗忘门、输入们和输出门，使用遗忘门来确定在前一时刻的单元状态中应该丢弃哪些信息，并直接参与更新单元状态，单元状态的更新算法与前一刻的隐藏层输出和当前时刻的输入有关，并将前一个时刻的单元状态作为更新当前状态的参数；

遗忘门算法：ft＝σ(Wf×[ht-1,xt]+bf)

单元状态更新算法：it＝σ(Wi×[ht-1,xt]+bi)

其中Ct-1和ht-1分别是前一时刻的单元状态和隐藏层输出，xt是当前时刻的输入，是要被添加到记忆单元的候选值，Wf、Wi和WC是分别是由训练得到的遗忘门、输入门和候选单元的权重，bf、bi和bC是它们的偏差，it是的权重系数，σ表示的是逻辑sigmoid函数：

6.根据权利要求5所述的一种基于3DCNN-LSTM的说话人识别方法，其特征在于，所述步骤S5在模型训练优化阶段，采用初始学习率为0.01，β1＝0.9，β2＝0.999，ε＝10E-8，优化器设置为Adam，全连接层的节点数设置为3026，同时为防止训练过程中发生梯度消失的现象，使用dropout方法，将其初始值设置为0.95并运用于每一层网络，并在计算损失函数的时候，选择交叉熵损失函数；

交叉熵算法定义如下：

其中，第j个样本的真实标签，k表示样本总数；

yj：第j个样本的网络模型的预测输出。

7.根据权利要求6所述的一种基于3DCNN-LSTM的说话人识别方法，其特征在于，所述步骤S6利用Softmax层进行说话人分类，Softmax函数的的公式如下：该式表示的数组中第i元素的Softmax值。

8.一种存储介质，所述存储介质为计算机可读存储介质，其存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以上权利要求1-7任一项所述的方法。