欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018106797665
申请人: 西安理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种多尺度自适应语音端点检测方法,其特征在于,包括步骤:读取数字音频信号;

计算数字音频信号的背景信号阈值;对数字音频信号进行粗检,检出语音信号端点待选区域;对待选区域进行细检,检出语音信号端点。

2.如权利要求1所述的多尺度自适应语音端点检测方法,其特征在于,具体包括以下步骤:步骤1,读取数字音频信号;

步骤2,读取数字音频信号起始部分内容,以短时幅值和短时幅值前向差分函数为特征,采用大尺度计算背景信号阈值Hb;

步骤3,对数字音频信号进行大尺度粗检,检出语音信号的起始点待选区域与终止点待选区域;

步骤4,对步骤3检测出的起始点待选区域与终止点待选区域进行小尺度细检,检出语音信号起始点与终止点。

3.如权利要求2所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤2具体包括以下步骤:步骤2.1,对整个待测数字音频信号,按大尺度计算短时幅值,如式1:式中:xn(i)表示第n帧内第i个数字音频信号的幅值,N为帧长,M(n)表示第n帧的短时幅值;

步骤2.2,计算待测数字音频信号前m帧的短时幅值前向差分函数F1(n),其中16≤m≤

24,如式2:

步骤2.3,找出短时幅值前向差分函数F1(n)的最大值,以及对应的帧号k;

步骤2.4,计算前k个帧的短时幅值的平均值,该值即为背景信号阈值Hb。

4.如权利要求2所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤3具体包括以下步骤:步骤3.1,根据阈值Hb进行逐帧比较,若第i帧及其后连续P帧,其短时幅值都大于Hb,则取从(i-1)帧开始的w个帧,作为起始点的待选区域;其中,4≤P≤6,4≤w≤6;

步骤3.2,根据阈值Hb进行逐帧比较,若第i帧及其后连续的P帧,其短时幅值都小于Hb,则取从(i)帧开始的x帧,作为终止点的待选区域;其中,4≤P≤6,4≤x≤6。

5.如权利要求2所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤4具体包括以下步骤:步骤4.1,对步骤3检出的起始点待选区域与终止点待选区域,按照小尺度计算短时幅值,如式1;

式中:xn(i)表示第n帧内第i个数字音频信号的幅值,N为帧长,M(n)表示第n帧的短时幅值;

步骤4.2,计算起始点待选区域与终止点待选区域的逆向差分函数,如式3:步骤4.3,对起始点待选区域,找出逆向差分函数F2(n)的最大值,以及其对应的帧号y,则y帧为起始点;

步骤4.4,对终止点待选区域,找出逆向差分函数F2(n)的最大值,以及其对应的帧号z,则z帧为终止点。

6.如权利要求2所述的多尺度自适应语音端点检测方法,其特征在于,还包括步骤5,合并步骤4检出的语音段。

7.如权利要求6所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤5的具体过程为:找出第一个起始点与最后一个终止点,去除中间所有端点。

8.如权利要求6所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤5的具体过程为:设定一个间隙阈值Hn,若前一个语音段终止点和下一个语音段起始点之间的距离<Hn,则将这两段合并为一段,否则不合并;循环上述操作,直至合并完毕。

9.如权利要求2所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤2、步骤

3中,大尺度帧长为256,帧移为128。

10.如权利要求2所述的多尺度自适应语音端点检测方法,其特征在于,所述步骤4中,小尺度帧长为128,帧移为64。