欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021101923004
申请人: 金陵科技学院
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于点积自注意力卷积神经网络的歌声检测方法,其特征在于,具体步骤如下:步骤1:将点积自注意力机制模块嵌入CNN模型中,提高模型的特征提取效果和网络分类准确率;

所述CNN模型包含4个卷积层和3个全连接层,每个卷积层后面有一个LeakyRelu增强非线性,每两个卷积层分别紧跟一个最大值池化层缩小特征图组成一个卷积组模块,卷积层的输出通道数按顺序分别是64, 32, 128  , 64,卷积层的输出特征图进入全连接层前平铺成向量,然后进入三个线性变换层逐层降低向量的维度,每个线性变换紧跟一个Dropout层防止过拟合,线性变换的输出长度分别是128, 64, 1,最后输出的一维向量用于二分类,将注意力机制模块嵌入CNN的方法是在两个卷积组模块后分别嵌入点积自注意力模块对其输出的特征进行注意力权重重估,并把重估后的特征图送入到网络的下一层;

对于CNN中输出1维改成输出2维,用以应用交叉熵损失函数,对传统应用于机器翻译的点积自注意力模块做了如下改进:

1)使向量键值对 和查询向量 的长度不等;

本算法中 的长度保持和特征图的高度相同,而高度是输入时频图中的频率个数;

的长度是特征图的高度和宽度之积,是特征图展开的向量;

2) 的表达含义改进;

本算法中 保持不变,代表原特征图,发生变化的是 ,它们分别经过线性变换,长度由h*w变为h,代表着特征图的抽象,其中 是特征图 的键值, 是特征图查询向量,在线性变换后都经过一个Relu单元,以增强非线性特性;

3)增加了注意力分布变换机制;

本算法在得到注意力分布后,还增加了一个变换机制,从分布矩阵形式变换为特征图的权重向量,降低了注意力重估的复杂度,变换过程用以下公式表示:其中R和E分别是自注意力分布矩阵和单位对角矩阵,R(1‑E)则将注意力分布矩阵的对角线置零,不计算查询向量对自身的注意,在特征图的频率维度dim=1上取均值得到各特征图的注意力权重 ,最后得到加权注意力后的特征图 ;

步骤2:对数梅尔时频图输入;

本算法重点关注对特征的注意力重估,因此忽略复杂的特征工程,本算法的输入是歌声检测中的常用基本特征,即对数梅尔时频图,首先对音频文件计算梅尔时频图,然后对梅尔时频图的幅值取对数,最后得到对数梅尔时频图矩阵,随后从该矩阵的起始列位置开始逐个提取图像,送入到构造的CNN神经网络中;

步骤3:网络设置:

本算法采用Pytorch平台,并借助Homura包进行开发和实现,网络训练时优化器采用Adam,同时设置了早停机制和最大轮数用以结束训练,实验中早停次数设为10,最大训练轮数为50;

在损失函数方面,应用加权二分类交叉熵损失函数,在应用损失函数前,用sigmoid将网络输出转换成概率值,设N个样本预测为歌声的概率为 ,样本的标签为 ,权重为 , 其中 , 则加权二分类交叉熵损失函数为:。

2.根据权利要求1所述的一种基于点积自注意力卷积神经网络的歌声的检测方法,其特征在于:步骤2:具体步骤如下:

首先对音频文件计算梅尔时频图,采样率为22050Hz,帧长为1024,帧移为315,梅尔频率数量取80个,频率区间取[27.5, 8000]Hz,因此时频图的时间分辨率是14.3ms,其次对梅尔时频图的幅值取对数,便可得到对数梅尔时频图,最后得到的对数梅尔时频图是一个行数为80行的矩阵,音频文件的长度决定矩阵的列数,随后从该矩阵的起始列位置开始逐个提取大小为80*115的图像,送入到构造的神经网络,每个图像跨越的时长为1.6s,取中心点的分类为图像的分类值,读取图像时,每跳设置为5列,因此本算法的检测精度是71.5ms,对于提取图像的列数这个参数,首先通过程序,使得网络能适应输入图像列数的变化,然后把图像列数分别设置为50, 80, 100, 115, 150, 200列,最后,在JMD数据集下通过实验发现图像列数为115检测效果最佳,在描述过程中始终使用80*115的图像进行描述。