欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018104095117
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于混合深度神经网络模型的城市噪声识别方法,包括训练阶段和测试阶段,其特征在于,训练阶段步骤如下:

步骤1.采集城市噪声,建立声音样本库;

步骤2.将声音样本库中的声音信号转换成语谱图;

步骤3.将转换完成的语谱图分别使用inception_v3,resnet152,inception_resnet_v2这三种预训练好的深度神经网络模型进行特征提取;

步骤4.将经过步骤3中3种深度神经网络模型提取的特征进行拼接;

步骤5.将拼接后的特征,作为分类器的输入,进行预测模型训练;

测试阶段:

步骤1.将一个未知的声音信号转换成语谱图;

步骤2.如上述训练阶段步骤3、4进行特征提取与拼接;

步骤3.使用预测模型进行分类预测。

2.根据权利要求1所述的一种基于混合深度神经网络模型的城市噪声识别方法,其特征在于训练阶段步骤2的具体实现包括以下:设声音信号为x(n),采样频率为fs;首先对声音信号进行分帧加窗,其帧长为wlen,帧移为inc,窗函数为汉明窗;将各帧信号进行傅里叶变换;将变换后的连续n帧信号进行拼接,得到语谱图。

3.根据权利要求2所述的一种基于混合深度神经网络模型的城市噪声识别方法,其特征在于训练阶段步骤3的具体实现包括以下:读取语谱图,由于这三种深度神经网络对语谱图的尺寸有各自的要求,因此首先对语谱图进行裁剪,把裁剪后的图片分别输入到三种预处理模型中,得到各个模型下的特征向量;采用三种深度神经网络来对声信号语谱图进行特征提取;

在inception_v3模型中,需要将图片调整为299×299×3,然后使用该模型进行特征提取得到2048维特征向量;

在resnet152模型中,需要将图片调整为224×224×3,然后使用该模型进行特征提取得到2048维特征向量;

在inception_resnet_v2模型中,需要将图片调整为299×299×3,然后使用该模型进行特征提取得到1536维特征向量。

4.根据权利要求3所述的一种基于混合深度神经网络模型的城市噪声识别方法,其特征在于所述训练阶段步骤5的具体实现包括以下:

5.1在得到融合特征之后,把特征值输入全连接层,然后采用softmax函数进行分类;

softmax的函数为:

其中, 表示第L层第j个神经元的输入, 表示第L层第j个神经元的输出,e表示自然常数;任意的输入值经过softmax函数后都会变成和为1的概率预测值;

5.2在神经网络反向传播中,要求一个损失函数,损失函数表示的是真实值与网络估计值的误差,然后去修改网络中的权重;使用交叉熵能解决损失函数学习缓慢的问题;交叉熵函数如下:其中,yi表示期望输出,ai表示神经元实际输出;

(1) (1) (m) (m) (i)

对于训练集{(x ,y ),…,(x ,y )},有y ∈{1,2,3,…,k}总共有k个分类;对于每个输入x都会有对应每个类的概率,即p(y=j|x),从向量角度来看,有,其中, 是模型的参数;

训练模型参数θ,使其能够最小化代价函数:

5.3采用4折交叉验证,把输入模型的数据随机的分成5组,其中一组做为测试集,其他四组依次取其中单独的一组样本留做验证集,剩余3组样本留做训练集,来进行模型的训练和验证;交叉验证重复4次,每组样本验证一次,以此来得到一个可靠稳定的模型;

5.4得到训练数据集之后,设置训练步数step以及每组训练个数batch;在训练数据集中随机抽取batch个样本的特征值进行分类训练;循环step得到最终训练模型,在训练的过程中,每100次用验证集对已训练的模型进行验证;

5.5为了平衡模型的训练速度和模型震荡,采用学习率指数衰减的方式来调整学习率;

学习率的更新方式如下:

step/decay_step

adaptive_learining_rate=learning_rate×decay_rate 。