欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018105146629
申请人: 华侨大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种语音识别方法,其特征在于,所述语音识别方法包括:步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量;

步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率,其中使用变分推断来更新优化模型参数;

步骤S300:将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模;

步骤S400:根据所述语音信号中的隐马尔科夫模型HMM的观测序列概率,判断并提取词语。

2.根据权利要求1所述的语音识别方法,其特征在于,所述步骤S100:输入语音信号,使用梅尔频率倒谱系数MFCC提取语音信号的特征向量的步骤进一步包括:步骤S101:预加重所述语音信号,以补偿所述语音信号中受到压抑的高频部分;其具体包括:S'n=Sn‑k*Sn‑1

其中:S表示语音信号,Sn={S0,…,SN‑1},n=0,…,N‑1;S'表示处理之后的语音信号,Sn'={S'0,…,S'N‑1},n=0,…N‑1;k∈[0.9,1];

步骤S102:使用汉明窗对所述语音信号进行加窗处理,用于平滑所述语音信号:其具体包括:步骤S103:将所述语音信号中的时域信号转换成频域信号,以进行频率分析;其中,幅度频:其中,i表示第i帧,k表示傅里叶点数;

功率谱:

步骤S104:使用梅尔克度滤波组过滤所述频域信号;

步骤S105:使用log非线性描述能量值;

步骤S106:通过离散余弦变换获取频率谱的低频信息;其中,步骤S107:通过差分增加语音信号的特征的时域连续性,其中,其中,dt表示第t个一阶差分,ct表示第t个倒谱系数,θ表示一阶导数的时间间隔;

步骤S108:倒谱均值归一化以获取语音信号的特征参数。

3.根据权利要求1所述的语音识别方法,其特征在于,所述步骤S200:将提取的MFCC特征向量输入到狄利克雷分布混合模型中以计算观测概率,其中使用变分推断来更新优化模型参数的步骤进一步包括:狄利克雷分布混合模型模型式为:

其中, 表示混合系数, 是第j个混合分量的狄利克雷分布。

4.根据权利要求1所述语音识别方法,其特征在于,所述步骤S300:将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括:步骤S301:初始化分布参数,选择混合分量的数量,使用K‑means算法初始化超参数{ujl}和{vjl}的值,其中,M为混合分量数,N为输入样本数量,表示伽马分布,Z表示M维二元随机变量;

其中:

注:<·>表示期望,Γ表示伽马函数;

超参数更新迭代式如下:

其中Ψ和Ψ'分别表示digamma函数和trigamma函数;

5.根据权利要求4所述的语音识别方法,其特征在于,所述步骤S300:将所述MFCC特征向量和所述观测概率输入隐马尔科夫模型HMM以便对所述语音信号的时间序列结构进行建模的步骤进一步包括:步骤S302:变分推断求解模型参数;

步骤S300进一步包括步骤S303:变分E步,更新Q(z)和 计算其最大似然估计值;

步骤S300进一步包括步骤S304:变分M步,最大化下界L(Q),求得的最大似然估计值来计算参数的值;

步骤S300进一步包括步骤S305:重复上述步骤S302和步骤S303,直至算法收敛。