1.一种基于语音特征融合和GMM的说话人识别方法,其特征在于包括如下步骤:步骤(1)原始语音信号预处理;
录音收集每位说话人原始语音数据后,时间长度为15‑20秒的,并对原始语音数据进行预处理;预处理包括语音分割、预加重、分帧、加窗、端点检测;
步骤(2)语音特征参数的提取、筛选和融合:通过步骤(1)将每一个说话人的15秒到20秒的长语音均分成8条短语音,提取12维的线性预测倒谱系数LPCC、12维的感知线性预测PLP、1维的基音周期和1维的频谱质心,计算两种12维语音特征参数中,每一维中不同说话人的语音特征参数方差和所有说话人中每一个说话人的语音特征参数方差的总和的比值;
在12维的LPCC和12维的PLP中,分别挑选比值较大的6维特征参数,再加上1维的基音周期和1维的频谱质心,组成14维的特征参数作为第一个高斯混合模型的训练参数;在12维的PLP特征参数中,再加入1维的基音周期,组成13维的特征参数作为第二个高斯混合模型的训练参数;
步骤(3)高斯混合模型的训练:将从每个说话人的8条短语音中获取的14维的特征参数和13维的特征参数分别作为训练参数,训练获得第一个高斯混合模型和第二个高斯混合模型;
步骤(4)高斯混合模型的串联:从每个人说话人的8条短语音中任选7条短语音,提取步骤(2)中14维的特征参数训练高斯混合模型,剩下一条作为测试数据,进行交叉测试,得到8组测试结果;根据8组测试输出的高斯混合模型决策的投票结果,确定阈值函数;此阈值函数作为串联步骤(3)中两个高斯混合模型的参数;
步骤(5)将录制的待测试的说话人语音经过步骤(1)的预处理后,提取步骤(2)中14维的特征参数输入到步骤(3)中的第一个高斯混合模型,若输出的高斯混合模型决策的投票结果满足阈值函数,则直接输出预测结果;若输出的高斯混合模型决策的投票结果不满足阈值函数,则提取步骤(2)中13维的特征参数输入到步骤(3)中的第二个高斯混合模型,经过第二个高斯混合模型决策后再输出预测结果;
步骤(4)中所述的高斯混合模型串联的目的是为了通过阈值函数最大程度筛选出第一个高斯混合模型识别时有可能出错的测试样本,使该测试样本能重新通过第二个高斯混合模型进行识别,从而将第一个高斯模型识别错误的测试样本通过第二个高斯混合模型进行第二次识别后,实现正确识别,阈值函数的确定方法如下:首先从步骤(1)中每个人说话人的8条短语音中任选7条短语音,提取步骤(2)中14维的特征参数训练一个高斯混合模型,剩下一条作为测试数据;本系统中使用高斯混合模型的机制是为N个说话人中的每个说话人分别对应建立一个λ={μ,Σ,ω}参数集合,当一条测试语音经过预处理可以分为a帧,把每一帧的数据与这N个参数集合进行匹配,与这一帧匹配度最高的参数集合获得这一帧的投票,该条测试语音的所有帧都输入高斯混合模型进行决策;决策完毕后,a帧对应a张投票会投在N个参数集合上;那么得票数最高的参数集合即对应该高斯混合模型判别的该条测试语音的说话人;高斯混合模型输出所有参数集合中得最高的得票数Vtop1,第二高的得票数Vtop2,总票数Vtotal;计算如下两个参数:X=Vtop1/Vtotal,Y=(Vtop1‑Vtop2)/Vtotal;X越大,说明该测试语音与最佳候选的参数集合之间的匹配程度越大,正确匹配的可能性越大;Y越大,说明最匹配的参数集合是说话者的可能性越大;将8条语音进行交叉测试,得到8组测试结果;筛选出每组测试结果中判断错误的测试样本,记录它们的输出数据X,Y;在每组测试样本中,确定每组Xmax和Ymax时,将最大值与第二大值进行比较;如果差值大于最大值的5%,则丢弃值最大的点,取第二大的点作为Xmax或Ymax;再次比较这些点,直到差值满足要求为止;在确定下8组测试中各自的Xmax和Ymax后,挑选出8组中最小的Xmax和Ymax,阈值函数设为:从而尽量少地筛选出第一个高斯混合模型正确识别的测试样本;在步骤(5)的识别过程中,当一个测试样本经过第一个高斯混合模型判别后,输出的X,Y不满足阈值函数,则进入第二个高斯混合模型继续判别。
2.根据权利要求1所述的一种基于语音特征融合和GMM的说话人识别方法,其特征在于所述步骤(2)语音特征参数的提取、筛选和融合处理方法如下:在通过步骤(1)得到每一个说话人经过预处理的8条短语音后,提取12维的线性预测倒谱系数LPCC、12维的感知线性预测PLP、1维的基音周期和1维的频谱质心,计算两种12维语音特征参数中,每一维中不同说话人的语音特征参数方差、所有说话人中每一个说话人的语音特征参数方差的总和、以及它们的比值r,计算公式如下:公式中,N表示说话人总数,mi表示第i个人在某一维的特征参数平均值,mall表示所有人在某一维特征参数平均值,Cinter表示不同说话人在某一维的语音特征参数方差,n表示每一个说话人的短语音数量,在步骤(1)中把每个人的语音分割成了8条短语音,所以这里n=8,mj,i表示第i个人的第j条短语音在某一维的特征参数平均值,Cintra表示所有说话人中每一个说话人的语音特征参数方差的总和;Cinter越大,说明不同的说话人在这一维上的特征差异越大;Cintra越小,说明同一个说话人在这一维度上的特征差异越小;所以当r值越大,说明这一维的特征参数的识别特征越明显;在12维的LPCC和12维的PLP中,分别挑选r值较大的6维特征参数,再加上1维的基音周期和1维的频谱质心,组成14维的特征参数作为第一个高斯混合模型的训练参数;在12维的PLP特征参数中,再加入1维的基音周期,组成13维的特征参数作为第二个高斯混合模型的训练参数。
3.根据权利要求1或2所述的一种基于语音特征融合和GMM的说话人识别方法,其特征在于所述步骤(3)高斯混合模型的训练方法如下:将从每个说话人的8条短语音中获取的14维的特征参数和13维的特征参数分别作为训练参数,训练获得第一个高斯混合模型和第二个高斯混合模型;高斯混合模型的参数估计就是在某种准则下获取模型参数的过程,其实就是对模型参数进行训练的过程,也就是求解均值μ、协方差Σ、权值ω的过程,其目的就是在给出观察序列后对高斯混合模型的参数进行估计;参数估计中使用最大似然估计的方法,在给出观察序列X后,通过计算找到高斯混合模型似然度最大时的模型参数λ={μ,Σ,ω},这样λ就是模型的最佳参数,λ能在最大程度上描述观察序列的分布情况。
4.根据权利要求3所述的一种基于语音特征融合和GMM的说话人识别方法,其特征在于所述步骤(5)将录制的待测试的说话人语音经过步骤(1)的预处理后,提取步骤(2)中14维的特征参数输入到步骤(3)中的第一个高斯混合模型,若输出的X,Y满足阈值函数,则直接输出预测结果;若输出的X,Y不满足阈值函数,则提取步骤(2)中13维的特征参数输入到步骤(3)中的第二个高斯混合模型,经过第二个高斯混合模型决策后再输出预测结果。