欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017108646951
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于神经网络堆叠自编码器多特征融合的声音识别方法,其特征在于具体包括如下步骤:(一)模型训练

步骤1、对原始声音数据进行分帧加窗,帧长为N,帧移为 加汉明窗;

步骤2、采用LPCC特征提取算法和MFCC特征提取算法对处理过的原始数据分别提取特征,将提取的特征拼接获得R维特征向量;

步骤2-1、使用LPCC特征提取算法对每一帧的声源数据进行特征提取,其中LPCC的阶数即LPCC特征个数,记为RLPCC;

步骤2-2、使用MFCC特征提取算法对每一帧的声源数据进行特征提取,其中MFCC的阶数即MFCC特征个数,记为RMFCC;

步骤2-3、将每一帧提取的LPCC特征和MFCC特征进行拼接,组成RLPCC+RMFCC维的特征向量;

步骤3、将采集到的声源数据按步骤1和2进行处理,得到训练数据集为X={x1,x2,···,xP},其中xi,i=1,…,P为一帧声源数据的RLPCC+RMFCC维的特征向量,P为总共的样本个数;同时将需要识别的声源类型进行标号,即第一类声源记为1,第二类声源记为2,以此类推,总共有M类声源;然后将训练数据集中的每一个样本对应的声源类号组成集合T={t1,t2,···,tP};

步骤4、将训练数据集X={x1,x2,···,xP}作为输入,输入至超限学习机自编码器进行特征融合;记第k个ELM-AE的输入为Xk,其中第1个的ELM-AE的输入X1=X;假设总共K个ELM-AE,以第k个ELM-AE为例;首先获得第k个ELM-AE的隐藏层输出为Hk=g(WkXk+bk),其中Wk为第k个ELM-AE的输入层与隐藏层之间的输入权重矩阵,bk为第k个ELM-AE的隐藏层偏置向量,且Wk和bk均为随机生成,与训练集无关;

步骤5、求解最小化问题

其中,C是一个权衡系数,用来权衡两项之间的权重;βk是第k个ELM-AE的输出权重,即ELM-AE训练出的模型参数;求解上述问题得:其中,Lk是第k个ELM-AE的隐藏层神经元的数量;

步骤6、求解第k+1个ELM-AE的输入为

步骤7、得到最终的ELM分类器的输入为Xk+1;

步骤8、以Xk+1作为输入,得到ELM分类器的隐藏层输出为HELM=g(WELMXk+1+bELM),其中WELM和bELM分别为随机生成的ELM的输入权重和隐藏层偏置向量;求解最小化问题得到输出权重其中LELM为ELM分类器的隐藏层神经元数量;

(二)声源预测:

对于一个新的未知类型的声源数据,进行如下处理得到其类型:步骤(1)、采用LPCC特征提取算法和MFCC特征提取算法对未知类型的声源数据进行特征提取,将两种提取的特征进行拼接得到特征向量x;

步骤(2)、求得特征融合的结果xK+1,xK+1=βKβK-1…β1x;

步骤(3)、得到ELM的隐藏层输出h=g(WELMxK+1+bELM);

步骤(4)、获得未知声源的类型为hβELM。