1.基于声信号语谱图纹理分布的声特征提取方法,其特征在于,包括:步骤1:将采集到的声音信号预处理;
步骤2:将增强的声音信号以语谱图的形式输出;
步骤3:将彩色语谱图转换成灰度图;
步骤4:将灰度图二值化处理,转换成对应的二值图;
步骤5:根据转换后的二值图纹理分布特征提取相应特征数据;
步骤6:通过分类器对提取到的声信号进行训练建模分类;
所述步骤1的具体实现包括如下:
声音信号预处理过程包含声音信号归一化、预加重、分帧和加窗;
1.1声音信号的采集及归一化处理
对一维声音信号进行归一化的目的在于减少不同样本之间的差异,并且使得声信号的幅值范围投影到[‑1,1]之间;
1.2预加重
采用预加重技术提高声音信号的高频成分,使得声音信号从低频到高频变得相对平坦;采用一阶高通滤波器提升高频分量,滤波器的响应特性如下:‑1
H(z)=1‑uz
其中系数u的取值范围为[0.9,1];
1.3分帧加窗
声音信号采样归一化后的数据x(n)进行分帧加窗处理;采用一定长度的窗函数w(n)乘以声音信号x(n)得到每帧加窗后的信号xi(n),常用的窗函数有汉明窗、汉宁窗和矩形窗;
其公式为:
xi(n)=w(n)*x(n)
汉明窗:
汉宁窗:
矩形窗:
所述步骤2的具体实现包括如下:
首先通过矩阵将分帧后的声音信号按帧信号拼接起来,然后将声音信号转换成语谱图,将声音信号转换成数字图像来提取其特征;
所述步骤3的具体实现包括如下:
在声音信号转换成语谱图进行可视化处理时,将彩色语谱图转成灰色语谱图;以R、G、B为轴建立空间直角坐标系,则彩色语谱图的每个像素的颜色用该三维空间的一个点来表示,而灰度图的每个像素的颜色用直线R=G=B上的一个点来表示;即过彩色语谱图空间的一个点(i,j)向直线R=G=B做垂线;
采用对R、G、B分量进行加权平均的算法来进行灰度化处理:Gray(i,j)=0.299*R(i,j)+0.578*G(i,j)+0.114*B(i,j)所述步骤4的具体实现包括如下:
采用自适应阈值法对灰色语谱图进行二值化处理;使用最大类间方差法找到图片的一个合适的阈值threshold;在使用MATLAB函数将灰度图像转换为二值图像时,需要设定一个阈值,MATLAB函数能够帮助获得一个合适的阈值;该阈值比人为设定的阈值能更好地将一张灰度图像转换为二值图像;
其中,Sum是灰度值与其点数的乘积的总和,Amount是灰度值总和;
最大类间方差法也被称为自适应阈值法;假设T是图像前景和背景的分割阈值;
u=w0·u0+w1×u1
其中w0是指前景占的比例,u0是他的平均灰度值,w1是背景点的比例,u1是其平均灰度值,u是图像的平均灰度;
所以,
2 2
g=w0·(u0‑u) +w1·(u1‑u)通过以上分析,得出以下公式:
2
g=w0·w1·(u0‑u1)
或者,
当g取最大值时,前景和背景之间的差异此时可视为最大值;
所述步骤5的具体实现包括如下:
通过利用图像处理技术对不同器械声音信号的二值图纹理特征进行提取;利用基于语谱图提取的声信号二值图,提出了基于其纹理特征及分布统计特征的五类新的特征表示方法,分别为:欧拉值参数特征Euler、面积分布参数ADC,垂直分布参数CDC、水平分布参数RDC以及局部分布参数特征LDC;
特征1:欧拉值表示一个二进制图像区域中的总数量和连接部分的数量之间的差异;欧拉数能够描述物体的结构;不同的二值图,其对应的欧拉值也是不同的,所以根据不同声音信号的二值图,能够计算其对应的欧拉值来表示二值图的一个特征参数;其计算方法如下:Euler=V‑E+F
其中,V是二进制映射中像素值为1的总数目,E是二进制图中相邻像素值为1的情况的总数,F是二进制图中四个相邻像素值为1的情况的总数;
特征2:不同二值图前景和背景的面积占比有比较大的差异,根据不同声音信号对应二值图统计其相应前景面积值参数来作为一种特征参数,面积分布值的不同代表着不同类型的声音信号;能够以此作为一维特征输入;其面积求取方法如下:其中x、y分别为二值图的像素长度;
特征3:不同声音信号转成的二值图按垂直方向看,不同的像素列对应的面积分布有一定的纹理差异,因此能够统计出不同声信号二值图的垂直分布情况,以此作为一维特征参数;其垂直分布求取方法如下:其中,x、y分别为二值图的像素长度和垂直方向分的像素宽度;
特征4:由不同器械声音信号的二值图纹理分布可以看出,不同声音信号转成的二值图按水平方向看,不同的像素行对应的面积分布有一定的纹理差异;因此能够统计出不同声信号二值图的水平分布情况,以此来作为特征参数;其垂直分布求取方法如下:其中,x、y分别为二值图的像素长度和水平方向分的像素宽度;
特征5:把二值图平分成四个小方块区域,分别为左上,左下,右上,右下;由不同声音信号转成的二值图能够看出,不同声音信号对应相同局部块的前景面积分布情况差异不同;
因此能够分别统计出不同局域块的分布情况,以此来作为区别不同声音信号的一种特征参数,其求取方法如下:其中,x,y的取值根据具体区域选取的范围来选择。
2.根据权利要求1所述的基于声信号语谱图纹理分布的声特征提取方法,其特征在于所述步骤6的具体实现包括如下:采用ELM极限学习机结合本方法中提及的特征来进行分类,通过对提取的特征参数进行训练分类测试试验;结果证实,将从二值图里提取的纹理等特征能够有效的对不同声音信号进行分类识别。