知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于神经网络堆叠自编码器多特征融合的声音识别方法

￥50300

专利号： 2017108646951

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

专利领域：乐器；声学

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.基于神经网络堆叠自编码器多特征融合的声音识别方法,其特征在于具体包括如下步骤：(一)模型训练

步骤1、对原始声音数据进行分帧加窗，帧长为N，帧移为加汉明窗；

步骤2、采用LPCC特征提取算法和MFCC特征提取算法对处理过的原始数据分别提取特征，将提取的特征拼接获得R维特征向量；

步骤2-1、使用LPCC特征提取算法对每一帧的声源数据进行特征提取，其中LPCC的阶数即LPCC特征个数,记为RLPCC；

步骤2-2、使用MFCC特征提取算法对每一帧的声源数据进行特征提取，其中MFCC的阶数即MFCC特征个数,记为RMFCC；

步骤2-3、将每一帧提取的LPCC特征和MFCC特征进行拼接，组成RLPCC+RMFCC维的特征向量；

步骤3、将采集到的声源数据按步骤1和2进行处理，得到训练数据集为X＝{x1,x2,···,xP}，其中xi,i＝1,…,P为一帧声源数据的RLPCC+RMFCC维的特征向量，P为总共的样本个数；同时将需要识别的声源类型进行标号，即第一类声源记为1，第二类声源记为2，以此类推，总共有M类声源；然后将训练数据集中的每一个样本对应的声源类号组成集合T＝{t1,t2,···,tP}；

步骤4、将训练数据集X＝{x1,x2,···,xP}作为输入，输入至超限学习机自编码器进行特征融合；记第k个ELM-AE的输入为Xk，其中第1个的ELM-AE的输入X1＝X；假设总共K个ELM-AE，以第k个ELM-AE为例；首先获得第k个ELM-AE的隐藏层输出为Hk＝g(WkXk+bk)，其中Wk为第k个ELM-AE的输入层与隐藏层之间的输入权重矩阵，bk为第k个ELM-AE的隐藏层偏置向量，且Wk和bk均为随机生成，与训练集无关；

步骤5、求解最小化问题

其中，C是一个权衡系数，用来权衡两项之间的权重；βk是第k个ELM-AE的输出权重，即ELM-AE训练出的模型参数；求解上述问题得：其中，Lk是第k个ELM-AE的隐藏层神经元的数量；

步骤6、求解第k+1个ELM-AE的输入为

步骤7、得到最终的ELM分类器的输入为Xk+1；

步骤8、以Xk+1作为输入，得到ELM分类器的隐藏层输出为HELM＝g(WELMXk+1+bELM)，其中WELM和bELM分别为随机生成的ELM的输入权重和隐藏层偏置向量；求解最小化问题得到输出权重其中LELM为ELM分类器的隐藏层神经元数量；

(二)声源预测：

对于一个新的未知类型的声源数据，进行如下处理得到其类型：步骤(1)、采用LPCC特征提取算法和MFCC特征提取算法对未知类型的声源数据进行特征提取，将两种提取的特征进行拼接得到特征向量x；

步骤(2)、求得特征融合的结果xK+1，xK+1＝βKβK-1…β1x；

步骤(3)、得到ELM的隐藏层输出h＝g(WELMxK+1+bELM)；

步骤(4)、获得未知声源的类型为hβELM。