欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 201610634966X
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于时频域统计特征提取的自然环境声音识别方法,其特征在于需要提取所有帧信号在时域上的统计特征:平均帧能量变化系数、能量冲击型帧信号占比、平均能量脉冲宽度、脉冲宽度离散程度、平均脉冲间隔宽度、间隔宽度离散程度和脉冲个数,以及在频谱分布上的特征:频带能量分量占比、频带帧能量分布离散程度和总频带帧能量分布离散程度,组成特征向量。

2.根据权利要求1所述的基于时频域统计特征提取的自然环境声音识别方法,其特征在于在提取所有帧信号在时域上的统计特征前,对声音样本信号的加窗分帧处理:首先对声音进行滤波处理,使用高通滤波器滤除50Hz以下的低频干扰信号;再将声音分为一秒钟每段,对每一段声音加Hamming窗做分帧处理,每帧选取256个采样点,为了保持帧信号间的连续性,帧移选取为128个采样点。

3.根据权利要求2所述的基于时频域统计特征提取的自然环境声音识别方法,其特征在于声音样本信号来源于声音样本库,将声音采集装置放置在户外施工现场,按照不同的距离采集自然环境声音,并给声音标定其所属自然环境声音的种类后作为声音样本库。

4.根据权利要求3所述的基于时频域统计特征提取的自然环境声音识别方法,其特征在于所述步骤3的所有帧信号在时域上的统计特征提取过程如下:

3-1.设fs为采样频率,每秒的连续声音信号s(t)经过采样后离散化为s[n],设对每秒信号进行分帧处理的帧长为N,帧移为 总帧数为NF;则第i帧信号si(n)的短时帧能量计算公式为:

3-2.对所有帧能量中位值以下的帧能量取平均值,记为Emed-ave,则:

其中Emedian为所有帧能量的中位值,而Nlower为能量在中位值以下的帧的个数,El表示中位值以下的帧能量;

3-3.对信号s[n]做傅里叶变换,得到频谱分布信息,短时傅里叶变换的公式为:

其中,Si(k)是第i帧信号si(n)的STFT;

3-4.根据不同的自然环境声音在每帧时域能量和频谱分布上的特点,取其统计值作为每段声音的特征;每帧信号时域能量帧能量变化系数公式表示为 用于反映帧信号的能量冲击程度;在滤除低于帧能量平均值的帧后,取所有帧信号的平均帧能量变化系数作为特征I,即 其中, 为所有帧能量的平均值,mean(·)为对集合中的元素求平均值;

3-5.根据不同自然环境的特点,设定一个帧能量冲击系数的阈值T,将信号分为能量冲击型帧信号和非冲击型帧信号,滤除低于帧能量平均值的帧后,统计一段自然环境声音的冲击型能量帧信号所占比例,作为特征II,即

其中,Eave表示所有帧能量的平均值,crad(·)表示求集合中元素的个数;

由于不同的声音信号帧能量波形具有不同的脉冲特性,利用平均帧能量截取信号的能量波形,即高于平均能量的帧用平均能量替代,截取后的帧能量公式为:

3-6.对将被截断的各帧的序号存入一个向量a,a中的数值是递增的,即a(k)

设da(k)=a(k+1)-a(k),k=1,…,K-1,其中,K是被截断的帧的总个数;根据定义,将da表示为 其中, 为li维向量,表示有li个1,而Δi>1是截断能量帧的不连续点,i=1,…I是1-vector的数量,即这段信号的脉冲数量;因此脉冲的宽度 脉冲之间的间隔宽度

3-7.计算所有脉冲的宽度均值作为特征III,即 计算所有脉冲之间的间隔宽度的平均值作为特征IV,即 计算所有脉冲的宽度变异系数作为特征V,即 计算所有脉冲间隔宽度的变异系数作为特征VI,即 计算所有脉冲的个数作为特征VII,即I;

3-8.由于不同声音信号的频谱分布不同,其能量集中在不同的频带上,因此将每帧信号按照频率划分为三个频带,分别记为[k1,k2]、[k3,k4]、[k5,k6],整段信号s(n)在第k频带的能量公式为:

其中, 为短时傅里叶变换后,第i帧信号在第k频带的能量分量;信号s(n)在所有频带的总能量为:

因此能够计算第一个频带的能量占总频带比重,作为一段自然环境声音信号的特征VIII,即 计算第二个频带能量占总能量的比重作为特征IX,即 计算第三个频带能量占总能量的比重作为特征X,即由于不同声音信号的频谱特性,为了反映自然环境声音在不同帧信号之间的各频带和总能量上分布的离散程度,计算总频带所有帧能量的变异系数作为特征XI,即计算第一个频带所有帧能量的变异系数作为特征XII,即计算第二个频带所有帧能量的变异系数作为特征XIII,即

计算第三个频带所有帧能量的变异系数作为特征XIV,即

将以上14个特征组成一个14维向量,作为一段声音信号的特征向量。

5.根据权利要求4所述的基于时频域统计特征提取的自然环境声音识别方法,其特征在于从声音样本库中提取每一类自然环境声音样本的特征,并给每类声音的特征标定其所属种类,形成样本特征库。

6.根据权利要求4所述的基于时频域统计特征提取的自然环境声音识别方法,其特征在于利用支持向量机对样本特征库进行训练,得到训练模型。

7.根据权利要求4所述的基于时频域统计特征提取的自然环境声音识别方法,其特征在于提取目标声音特征向量,目标声音的特征提取和使用和样本声音特征提取完全相同的过程。

8.根据权利要求4所述的基于时频域统计特征提取的自然环境声音识别方法,其特征在于利用支持向量机对目标声音的特征向量与训练模型进行模式匹配,给出判断结果。