欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018109839231
申请人: 江西师范大学
专利类型:发明专利
专利状态:已下证
专利领域: 乐器;声学
更新日期:2023-12-04
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种赣方言语音和方言点识别方法,其特征在于,包括预先构建赣方言语音识别模型,所述赣方言语音识别模型由前端信号处理模块、语言解码和搜索算法模块、声学模型、发音词典、语言模型构成,所述语言解码和搜索算法模块主要将声学信号解码成理想情况下接近源词序列的词序列,通过使用声学模型和语言模型生成具有最大后验概率输入特征向量的词序列,所述声学模型构建方式为通过建立赣方言语音语料库后通过声学模型训练而成,所述语言模型构建方式为通过建立赣方言文本语料库后通过语言模型训练而成,所述发音字典模块为赣方言发音词典,主要包含赣方言句子以及它对应的声母、韵母和声调信息;

赣方言语音识别模型接收待识别的赣方言语音;

对接收到的赣方言语音通过赣方言语音识别模型中的前端信号处理模块进行预处理并提取出MFCC特征向量;

通过语言解码和探索算法模块将声学模块与语言模型结合起来,选出概率最大的句子作为语音识别句子输出;

构建赣方言点识别模型,采用CNN网络结构混合建模,首先以赣方言语音识别模型识别出来的赣方言汉字为基础,利用word2vec工具将其转换成汉字向量;其次利用赣方言语音中抽取出MFCC特征,对识别出的赣方言文本和语音两种类型的向量进行拼接,将此向量作为CNN的输入,并将卷积层的过滤大小分别设置为3、4和5;然后将卷积层后的向量利用最大池化策略降维;最后采用dropout防止模型过拟合,并利用Softmax对赣方言点进行识别;

通过赣方言点识别模型识别赣方言点。

2.根据权利要求1所述的一种赣方言语音和方言点识别方法,其特征在于,所述的前端信号处理模块的预处理过程具体为:输入是赣方言声音信号,经过数模转换后,再去除直流信号,然后对信号进行分帧处理,接着对信号进行放大,对其分窗,然后经过付立叶变换,截取Mel频率范围信号,经过对数运算,提取出MFCC特征,再结合每帧的能量信号,得到差分信息,最后提取出语音信号的声学特征,用于后续的模型训练。

3.根据权利要求2所述的一种赣方言语音和方言点识别方法,其特征在于,所述信号进行分帧处理以25毫秒为一帧,每两个帧之间的叠加长度为10毫秒。

4.根据权利要求1所述的一种赣方言语音和方言点识别方法,其特征在于,所述声学模型采用基于HMM-DNN的声学建模,赣方言语音的MFCC特征向量作为DNN输入,输出各种精度的音素,声学模型采用公式(1)所示的交叉熵作为目标函数,同时采用随机梯度下降法对其进行优化;

H0=-yclog[p(yc=1)]-(1-yc)log[1-p(yc=1)]      (2)

公式(1)中的Θ是参数集,M代表训练实例的个数。

5.根据权利要求4所述的一种赣方言语音和方言点识别方法,其特征在于,所述赣方言点识别模型采用公式(1)所示的交叉熵作为目标函数,同时采用Adam算法对其进行优化。