1.一种噪声环境下声纹识别的语音特征处理方法,其特征在于,该方法包括以下几个步骤:步骤1:获取噪声环境下的语音信号,根据语音的特点对信号进行前期处理,包括预加重处理,加窗处理和端点检测;
步骤2:估算发声个体的基音周期,并以此为依据对语音信号进行谱平滑处理,得到新的谱包络,计算通过梅尔滤波器的能量,最终通过DCT倒谱计算得到SFCC;
步骤3:结合均值消减法、方差归一化、时间序列滤波法和加权自回归移动平均滤波法依次对步骤2得到的SFCC进行后处理,得到最终语音特征MVDA。
2.根据权利要求1所示的噪声环境下声纹识别的语音特征处理方法,其特征在于,步骤
1对信号进行前期处理,具体为:步骤A1:根据口腔的辐射响应接近于一阶高通函数的特性,采用的预加重滤波器为x′(n)=x(n)-a*x(n-1),公式中a是常数,x(n)为原信号,x′(n)为预加重信号,n为时域内语音的采样点;
步骤A2:采用汉明窗对语音信号进行加窗处理;
步骤A3:采用短时平均能量和短时平均过零率的双门限法对语音信号进行端点检测。
3.根据权利要求1或2所示的噪声环境下声纹识别的语音特征处理方法,其特征在于,所述步骤2,具体步骤如下:步骤B1:首先利用倒谱法基音检测估算每一帧语音的基音周期w0;
步骤B2:对每一帧信号进行快速傅里叶变换,计算谱线能量;
步骤B3:对得到的能量谱求其谱包络,利用谱包络平滑函数对谱包络进行平滑处理;
步骤B4:计算通过Mel滤波器组的能量,计算DCT倒谱得到SFCC。
4.根据权利要求3所示的噪声环境下声纹识别的语音特征处理方法,其特征在于,所示步骤B3利用谱包络平滑函数对谱包络进行平滑处理具体为:对于一帧语音信号,首先通过在步骤B1中求得的基音频率w0;根据基音频率w0的频域数据X[w],在信号区间[w0/2,3w0/2]内找到波峰A1及其对应的频率w11;同样在信号区间[w0/2+w11,3w0/2+w11]内找到波峰A2及其对应的频率w12;循环此步骤依次发现{[Ak,w1k]},k=1,2,...,一直找到频域信号的末端;同样根据其频域数据X[w],在信号区间[w0/2,3w0/2]内找到波峰B1及其对应的频率w21;同样在信号区间[w0/2+w21,3w0/2+w21]内找到波峰B2及其对应的频率w22;循环此步骤依次发现{[Bk,w2k]},k=1,2,...,一直找到频域信号的末端;根据Ak和Bk求得二者的中间值Ck及其对应的 频率wk;根 据两个 相邻的中间值插值重新估算谱线能量,公式 为得到新的能量谱包络。
5.根据权利要求1所示的噪声环境下声纹识别的语音特征处理方法,其特征在于,所述步骤3,结合均值消减法、方差归一化、时间序列滤波法和加权自回归移动平均滤波法依次对步骤2得到的SFCC进行后处理,具体步骤如下:步骤C1:利用均值消减法对语音信号特征进行处理,用C(τ)表示第τ帧语音信号的特征,则均值消减表示为 表示经步骤C1后得到的语音信号,其中μ是根据样本数据估计的均值项;
步骤C2:利用方差归一化法对步骤C1均值消减后的语音信号特征进行处理;方差归一化法表示为 其中 是均值消减和方差归一化之后的特征,σ2[d]是SFCC第d维的估计方差;
步骤C3:利用时间序列滤波法对步骤C2方差归一后的语音信号特征进行处理;
其中 是均值消减、方差归一化和时间序列滤波之后的
特征,K代表时间序列的宽度,m为其最大宽度;
步骤C4:利用加权自回归移动平均滤波法对语音信号特征进行处理,
其中 是MVDA滤波之后的特征,m代表加权自回归移动平均滤波法深度和权重,m=1时表示没加权自回归移动平均滤波处理, 这里T为给定语句中的帧数。
6.根据权利要求3所示的噪声环境下声纹识别的语音特征处理方法,其特征在于,所述步骤B1:首先利用倒谱法基音检测估算每一帧语音的基音周期具体为;
已知基音频率范围为40~600Hz之间,当采样频率为fs时,在到频率域上40Hz对应的基因周期样值点Pmax=fs/40,而600Hz对应的基音周期样值点为Pmin=fs/600,所以在计算出倒谱后,就在到频率为Pmin和Pmax之间寻找倒谱函数的最大值,倒谱函数最大值对应的样点数就是该i帧语音信号的基音周期T0(i)。
7.根据权利要求3所示的噪声环境下声纹识别的语音特征处理方法,其特征在于,所述步骤B2对每一帧信号进行快速傅里叶变换,计算谱线能量具体为;当假设语音信号序列为x(n),对应的傅里叶变换为X(w)=FT[x(n)],则序列 为倒谱,FT和FT-1分别表示傅里叶变换和傅里叶逆变换,根据语音的特性,x(n)是由声门脉冲激励u(n)经声道响应υ(n)滤波而得到,可以表示为x(n)=u(n)*υ(n),设这三个量的倒谱分别为及 则可得到 看出 和 是相对分离的,因而可行倒谱分离 恢复u(n),从中求出基音周期。