1.一种多尺度自适应语音端点检测方法,其特征在于,包括步骤:读取数字音频信号;
计算数字音频信号的背景信号阈值;对数字音频信号进行粗检,检出语音信号端点待选区域;对待选区域进行细检,检出语音信号端点。
2.如权利要求1所述的多尺度自适应语音端点检测方法,其特征在于,具体包括以下步骤:步骤1,读取数字音频信号;
步骤2,读取数字音频信号起始部分内容,以短时幅值和短时幅值前向差分函数为特征,采用大尺度计算背景信号阈值Hb;
步骤3,对数字音频信号进行大尺度粗检,检出语音信号的起始点待选区域与终止点待选区域;
步骤4,对步骤3检测出的起始点待选区域与终止点待选区域进行小尺度细检,检出语音信号起始点与终止点。
3.如权利要求2所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤2具体包括以下步骤:步骤2.1,对整个待测数字音频信号,按大尺度计算短时幅值,如式1:式中:xn(i)表示第n帧内第i个数字音频信号的幅值,N为帧长,M(n)表示第n帧的短时幅值;
步骤2.2,计算待测数字音频信号前m帧的短时幅值前向差分函数F1(n),其中16≤m≤
24,如式2:
步骤2.3,找出短时幅值前向差分函数F1(n)的最大值,以及对应的帧号k;
步骤2.4,计算前k个帧的短时幅值的平均值,该值即为背景信号阈值Hb。
4.如权利要求2所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤3具体包括以下步骤:步骤3.1,根据阈值Hb进行逐帧比较,若第i帧及其后连续P帧,其短时幅值都大于Hb,则取从(i-1)帧开始的w个帧,作为起始点的待选区域;其中,4≤P≤6,4≤w≤6;
步骤3.2,根据阈值Hb进行逐帧比较,若第i帧及其后连续的P帧,其短时幅值都小于Hb,则取从(i)帧开始的x帧,作为终止点的待选区域;其中,4≤P≤6,4≤x≤6。
5.如权利要求2所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤4具体包括以下步骤:步骤4.1,对步骤3检出的起始点待选区域与终止点待选区域,按照小尺度计算短时幅值,如式1;
式中:xn(i)表示第n帧内第i个数字音频信号的幅值,N为帧长,M(n)表示第n帧的短时幅值;
步骤4.2,计算起始点待选区域与终止点待选区域的逆向差分函数,如式3:步骤4.3,对起始点待选区域,找出逆向差分函数F2(n)的最大值,以及其对应的帧号y,则y帧为起始点;
步骤4.4,对终止点待选区域,找出逆向差分函数F2(n)的最大值,以及其对应的帧号z,则z帧为终止点。
6.如权利要求2所述的多尺度自适应语音端点检测方法,其特征在于,还包括步骤5,合并步骤4检出的语音段。
7.如权利要求6所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤5的具体过程为:找出第一个起始点与最后一个终止点,去除中间所有端点。
8.如权利要求6所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤5的具体过程为:设定一个间隙阈值Hn,若前一个语音段终止点和下一个语音段起始点之间的距离<Hn,则将这两段合并为一段,否则不合并;循环上述操作,直至合并完毕。
9.如权利要求2所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤2、步骤
3中,大尺度帧长为256,帧移为128。
10.如权利要求2所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤4中,小尺度帧长为128,帧移为64。