欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2014101167596
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种实时语音识别数字的方法,用于手机终端中通过语音识别数字从而进行群发短信或者语音拨号,其特征在于,包括以下步骤:通过自适应采样频率对输入的语音进行采样,并对采样获得的语音信号进行预处理;

对预处理后的语音信号进行端点检测,提取出单个数字语音信号;

提取每个数字语音信号的MFCC特征;

采用实时动态时间规整DTW算法将每个数字语音信号的MFCC特征与通过训练获得的MFCC参数模板进行匹配识别。

2.根据权利要求1所述的实时语音识别数字的方法,其特征在于,所述预处理包括以下步骤:对采样获得语音信号进行调幅;

对调幅后的语音信号通过加窗处理滤除高频成分;

对滤除高频成分后的语音信号采用频域最小均方LMS算法去除噪声。

3.根据权利要求2所述的实时语音识别数字的方法,其特征在于,所述加窗处理采用的是汉明窗。

4.根据权利要求1所述的实时语音识别数字的方法,其特征在于,所述采样频率通过自适应方法获得,所述自适应方法包括步骤:

1)、检测输入的当前段语音信号的第一个数字开始时刻到最后一个数字结束的时刻的总时间Ttotal;

2)、根据每一个单独的数字语音信号从端点检测的开始到端点检测的结束时间,计算出数字语音信号的总和时间Tmain,Tmain=t1+2+...tn,t1,t2,...tn为当前段语音信号中每个数字语音信号的持续时间;

3)、根据下面公式计算得到下一段语音信号的采样频率Fre:其中, α是一个常数,F为当前段语音信号的采样频率。

5.根据权利要求4所述的实时语音识别数字的方法,其特征在于,所述当前段语音信号的采样频率F初始为32KHz。

6.根据权利要求1所述的实时语音识别数字的方法,其特征在于,所述采用实时动态时间规整DTW算法将每个数字语音信号的MFCC特征与通过训练获得的MFCC参数模板进行匹配识别,具体包括步骤:构造由二元数组对{TestNum,RefNum}组成的表Table[],其中二元数组TestNum和RefNum表示在进行相似度计算和矢量距离累加时用到的数字语音信号的帧序号和参考模板的帧序号;

按照表Table[]中的二元数组对依次计算对应帧的矢量距离;

将计算获得的矢量距离进行累加,根据累加结果进行模板匹配。

7.根据权利要求6所述的实时语音识别数字的方法,其特征在于,所述根据累加结果进行模板匹配,是选取矢量距离累加值最小的数字语音信号作为语音识别结果输出。

8.根据权利要求7所述的实时语音识别数字的方法,其特征在于,所述通过训练获得的MFCC参数模板是针对数字0~9通过训练获得的MFCC参数模板。