1.一种基于基音周期组合特征参数的声纹识别方法,其特征在于,包括如下步骤:S1:语音信号的采集输入;
S2:语音信号的预处理,主要包括预加重、分帧和加窗处理;
S3:语音信号组合特征参数提取:提取基音周期、LPCC、△LPCC、能量、能量的一阶差分以及GFCC特征参数共同组合成多维特征向量,其中:LPCC为线性预测倒谱系数,△LPCC为LPCC的一阶差分,GFCC为Gammatone滤波器倒谱系数;
S4:利用离散二进制粒子群优化算法对步骤S3中的多维特征向量进行筛选,将GMM-UBM识别过程中等错误率作为评价函数,选取使得等错误率最小的特征向量作为声纹识别的特征向量,其中所述GMM-UBM为高斯混合模型与通用背景模型相结合的说话人识别模型;
S5:使用GMM-UBM训练得到说话人的声音模型,即将语音库随机选取相应数量的语音训练得到通用背景模型UBM,然后利用最大后验准则自适应得到不同说话人的声音模型;
S6:提取经粒子群优化算法筛选后的测试语音的特征参数,利用步骤S5训练得到的GMM-UBM模型,计算出对数概率得分,选择概率得分最大者,即为目标说话人;
在步骤S4所述的离散二进制粒子群优化算法中,每个粒子的适应度按照以下方式计算:其中函数: Ai表示
多维特征向量中的第i维参量,Aj表示多维特征向量中的第j维参量,C是说话人的类别,i和j遍历于多维特征向量中的所有维数,H1(Aj)表示确定C之前Aj的熵,H1(C)表示确定Aj之前C的熵,H1(Aj|C)表示确定C之后Aj的熵,H2(Ai)表示确定Aj之前Ai的熵,H2(Aj)表示确定Ai之前Aj的熵,H2(Ai|Aj)表示确定Aj之后Ai的熵;
所述基音周期特征参数提取时,以m/N为步长对语音帧抽样,同时以生成在[1,2]之间的随机数作为抽样点值的倍数矩阵K相乘,获得新的语音帧,然后设定两个备选基音周期之间的路径转移权值为:然后采用遗传算法,使得两个备选基音周期之间的路径转移权值作为适应度值,通过不断的改变倍数矩阵K的值,使得适应度值最大,然后获得该语音帧信号对应的峰值大小为R(τ),然后获得基音周期T0;
其中m为获得的语音帧的点数,N为语音帧个数,R1(τi)为第一个备选基音周期在第i个点的自相关函数峰值,R2(τj)为第二个备选基音周期在第j个点的自相关函数峰值。
2.根据权利要求1所述的基于基音周期组合特征参数的声纹识别方法,其特征在于,步骤S3中提取1维基音周期,12维LPCC,12维△LPCC,1维能量参数,1维一阶差分能量参数,22维GFCC参数,共同组成的49维特征向量。
3.根据权利要求1或2所述的基于基音周期组合特征参数的声纹识别方法,其特征在于,步骤S4中离散二进制粒子群优化算法的具体步骤包括:A1:装载训练数据集,设置初始化参数;
A2:随机产生初始群体,并为每个粒子生成随机初始化速度,设置粒子个体极值和群体的全局极值;
A3:评价每个粒子的适应值;
A4:对每个粒子,将其适应值与粒子个体极值的适应值进行比较,如果其适应值优于粒子个体极值的适应值,则将当前粒子的位置作为粒子个体极值;
A5:对每个粒子,将其适应值与群体全局极值的适应值进行比较,如果其适应值优于群体全局极值的适应值,则将当前粒子的位置作为群体全局极值;
A6:更新粒子速度和位置;
A7:判断迭代次数是否达到最大值,如果达到,则进入步骤A8,否则跳转到步骤A3;
A8:把最终的群体全局极值转换为对应的特征子集。
4.根据权利要求3所述的基于基音周期组合特征参数的声纹识别方法,其特征在于,步骤A6中更新粒子速度按照以下公式进行:式中:
表示第n次迭代时第i个粒子第d维的速度, 表示第n+1次迭代时第i个粒子第d维的速度, 表示第n次迭代时第i个粒子第d维的值, 表示第n次迭代时第i个粒子的粒子个体极值第d维的值, 表示第n次迭代时群体全局极值在第d维的值,d=1,2,...,D表示粒子的维度,总共D维,i=1,2,...,m,m为种群规模,w为惯性权重,c1是粒子跟踪自己历史最优值的权重系数,c2是粒子跟踪群体最优值的权重系数,r1、r2是[0,1]之间的随机数。
5.根据权利要求3所述的基于基音周期组合特征参数的声纹识别方法,其特征在于,更新粒子位置按照以下方法进行:针对第n+1次迭代时第i个粒子第d维的值而言,先按照 计算位置状态改变概率;然后随机产生一个(0,1)之间的随机数rand(),如果 则否则
其中 表示第n次迭代时第i个粒子第d维的速度, 表示第n+1次迭代时第i个粒子第d维的值。
6.根据权利要求1所述的基于基音周期组合特征参数的声纹识别方法,其特征在于,步骤S2中预加重滤波器的参数u取0.95,分帧采用的帧长为256,帧移为100,窗函数采用汉明窗。
7.根据权利要求1所述的基于基音周期组合特征参数的声纹识别方法,其特征在于,步骤S1中利用录音软件Cool Edit录制小语音库,去除静音段,并将噪声衰减10dB,其中采用频率为16KHz,量化比特为16bit的wav文件。