欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022105883890
申请人: 燕山大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多尺度通道分离卷积特征提取的说话人聚类方法,其特征在于:包括以下步骤:步骤1:将VoxCeleb和AMI数据集切分为训练集、验证集和测试集;

步骤2:对VoxCeleb和AMI数据进行预处理;

步骤3:在ECAPA‑TDNN网络框架的基础上搭建多尺度通道分离卷积模型,对ECAPA‑TDNN网络框架中的Res2Net多尺度特征提取模块进行改进;

步骤3中,具体包括以下步骤:

步骤3.1:搭建单个多尺度通道分离卷积特征提取基本块,在第一个TDNN卷积层后将通道分为8份,每一份都经历一个卷积,然后将卷积后的特征按照通道拼接,再通过一个TDNN卷积层进行特征融合;

步骤3.2:搭建多尺度通道分离卷积特征提取模型,将预处理后得到的80维MFCC特征经过1x1的卷积后,接入3个连续的多尺度通道分离卷积特征提取基本块,然后将每一个块得到的输出进行通道拼接,最后经过1x1卷积完成特征融合;

步骤3.3:将得到的多尺度通道分离卷积特征提取模型接入一个统计池化层,获得全局和局部的均值和方差,通过一个softmax激活函数和两个线性全连接层得到最后的嵌入式特征向量;

步骤4:选用AAM‑softmax损失函数对多尺度通道分离卷积模型进行多次训练得到最优多尺度通道分离卷积模型;

步骤4中,利用AAM‑softmax损失函数对说话人语音段的正样本和负样本求特征差值角度θ并计算损失更新网络结构中权重系数,具体包括以下步骤:步骤4.1:对网络最后提取到的嵌入式特征向量和其对应的权重系数进行归一化操作,如下公式所示:步骤4.2:接着用余弦相似度求两个语音段嵌入式特征向量的距离,如下公式所示:根据以上的公式可求得对应的AAM‑softmax损失函数设定为概率的负对数,表示为以下公式:其中边缘系数q设为0.2,s为缩放因子,设为30;

步骤4.3:利用AAM‑softmax损失函数,设定epcho为10,每个epcho训练的minibatch设置为16,每个minibatch包含400个语音对,对网络进行训练;

步骤5:利用多尺度通道分离卷积模型对AMI会议数据提取特征,并运用谱聚类进行聚类分析;

步骤6:使用标准的分割聚类错误率DER对聚类结果打分。

2.根据权利要求1所述的一种基于多尺度通道分离卷积特征提取的说话人聚类方法,其特征在于:步骤2中,对用于模型评估的VoxCeleb数据集和说话人聚类的AMI数据集进行预加重、分帧、加窗、快速傅里叶变换、Mel三角滤波、计算对数能量和离散余弦变换,具体包括以下步骤:步骤2.1:对输入的语音信号进行预加重,通过一阶高通滤波器来实现,所述一阶滤波器的传递函数模型表示为:‑1

H(z)=1‑tz

其中,H(z)为预加重函数,z表示变换域变量,t为预加重系数,并且0.9

步骤2.2:对预加重后的语音信号进行分帧,设置在相邻的两帧之间有一部分重叠,应用汉明窗模型,所述汉明窗模型的表达方式为:其中w(n)是汉明窗函数,Q是每帧的样本数,n为时域离散刻度;

步骤2.3:对处理好的每一帧时域信号x(n)通过离散傅里叶变换或快速傅里叶变换得到语音的频谱,表示为:其中,x(n)为每一帧时域采样信号,X(k)为语音的频谱,N为离散傅里叶变换区间长度,k为频域离散刻度;

步骤2.4:对步骤2.3中得到的频谱信号平滑化,并消除谐波,进行Mel三角滤波,所述的三角滤波器的频率响应表示为:其中,H m(k)是三角滤波后的频率响应,m表示第m个滤波器,f(m)表示第m个滤波器输出的频率大小;

步骤2.5:对三角滤波后的频域信号计算对数能量,表示为:其中,s(m)为滤波后的对数能量,L为MFCC系数的阶数;

步骤2.6:对数能量经过离散余弦变换得到最后的80维MFCC系数,离散余弦变换的表达公式为:其中,M是三角滤波器的个数。

3.根据权利要求1所述的一种基于多尺度通道分离卷积特征提取的说话人聚类方法,其特征在于:步骤5中,由得到的多尺度通道分离卷积模型提取指定维度为192的嵌入式特征向量,构建特征样本的相似矩阵和度矩阵,通过二者计算出归一化拉普拉斯矩阵的前k个特征值和其对应特征向量,最后通过k‑means完成对所属语音片段的聚类分析,具体包括以下步骤:步骤5.1:由嵌入式向量特征提取模型对预处理后的数据进行提取特征,得到指定维度为192的频谱特征;

步骤5.2:根据余弦相似度计算所有样本特征的相似程度,得到数值为0到1的相似矩阵W,计算公式如下:其中,xi,xj表示样本空间中两个不同的数据点,指定参数σ为0.01;

步骤5.3:由相似矩阵计算度矩阵D,计算公式如下:

其中,度矩阵D中每个数值di是将相似矩阵W的每行元素wij相加,表示每个样本数据的度,度矩阵D是将得到的数值di放在对角线上构成的对角矩阵;

步骤5.4:由度矩阵和相似矩阵计算归一化的拉普拉斯矩阵:

1 2 k

并计算拉普拉斯矩阵Lsym前k个最小特征值所对应的特征向量p ,p ,...p ,令步骤5.5:作变换步骤5.6:对于每一个i=1,...,n,令 为H矩阵的第i行;

步骤5.7:通过k‑means算法将点聚成C1,...,Ck。

4.根据权利要求1所述的一种基于多尺度通道分离卷积特征提取的说话人聚类方法,其特征在于:步骤6中,考虑现实条件下说话人数量已知和说话人数量未知的两种情况,并按照验证集和测试集对聚类的结果进行评估分析。