1.一种语音识别方法,其特征在于,该语音识别方法包括:获取语音信息;
利用第一语音识别方法识别所述语音信息得到第一语音识别结果,利用第二语音识别方法识别所述语音信息得到第二语音识别结果;及比对第一语音识别结果及所述第二语音识别结果,根据比对结果,输出语音识别结果,并显示。
2.一种如权利要求1所述的语音识别方法,所述根据比对结果,输出语音识别结果的具体方法为:S1:为所述第一语音识别结果与第二语音识别结果进行比较,如果第一语音识别结果与第二语音识别结果覆盖率低于设定阈值,则执行如下步骤,其中所述覆盖率是指完全重复的比率,从第一个字符开始注意比对,比对相同的字符数占总字符数的比率:判断第一语音识别结果与第二语音识别结果的字符数是否相同;
1)若相同,将第一语音识别结果与第二语音识别结果进行匹配,统计匹配数量;并计算相似度R:R=Q(R1,R2)/Max(|R1|,|R2|);Q(R1,R2),表示R1、R2中相同的数量;即第一语音识别结果与第二语音识别结果中相同的数量;Max(|R1|,|R2|)表示R1、R2中的最大值;执行S2;
2)若不相同,将第一语音识别结果与第二语音识别结果的无关字符删除,包括:将停用字符、连续相同的字符删除;得到修正后的第一语音识别结果与修正后的第二语音识别结果;再次判断修正后的第一语音识别结果与修正后的第二语音识别结果的字符数是否相同,若相同,则R=Q(R1,R2)/Max(|R1|,|R2|);Q(R1,R2),表示R1、R2中相同的数量;即修正后的第一语音识别结果与修正后的第二语音识别结果中相同的数量;Max(|R1|,|R2|)表示R1、R2中的最大值;执行S2;
若修正后的第一语音识别结果与修正后的第二语音识别结果的字符数不相同,分别从前至后比较修正后的第一语音识别结果与修正后的第二语音识别结果,并计算相似度RA:RA=Q1(R1,R2)/Max(|R1|,|R2|);
Q1(R1,R2),表示从前至后比较修正后的第一语音识别结果与修正后的第二语音识别结果中相同的数量;Max(|R1|,|R2|)表示R1、R2中的最大值;
从后至前比较修正后的第一语音识别结果与修正后的第二语音识别结果,并计算相似度RB:RB=Q2(R1,R2)/Max(|R1|,|R2|);
Q2(R1,R2),表示从后至前比较修正后的第一语音识别结果与修正后的第二语音识别结果中相同的数量;Max(|R1|,|R2|)表示R1、R2中的最大值;
比较RA、RB,R=max(RA,RB);执行S2;
S2:如果R小于指定值,则摒弃该识别结果,重新采样。
3.一种如权利要求2所述的语音识别方法,其特征在于,在获取语音信息后,对所述语音信息进行预处理;
所述预处理方法包括流利程度检测,端点检测,预加重,分帧,加窗;
1)端点检测
所述端点检测采用如下方式:设定时间阈值T0、时间间隔△t、声音阈值V0,通过音频信号采集电路进行信号采集,连续采集N个时间节点的的声音信号,N>T0/△t;
如果满足INT(0.6N)个时间节点的声音信号>V0,则认为检测到声音,并将状态为S置1;
其中,INT(·)表示取整;如果在检测到声音时,之前的状态S=0,则认为检测到声音的起点;
如果满足INT(0.6N)个时间节点的声音信号
在端点检测完毕之后,将声音信号两端的静音切除;
2)流利程度检测
将语音截成前后两部分,并对前半部份和后半部份进行采样,连续采集M个时间节点的的声音信号,若如果满足M个时间节点的声音信号>V0,则认为流畅程度存在问题,此时,对该部分语音进行切除,切除后的语音为有效语音段;分别计算前后两部分的有效语音段的长度,选取长度较小的数值与总待评分语音的长度数值作除运算,并将得到的值与对应的阈值相比较,若大于对应的阈值,则判定为流利;否则,判定为不流利;
3)预加重
采用预加重系数为0.91的高通滤波器H(z)=1-αz-1消除信号衰减,提升信号的高频部分;对预加重后的信号进行分帧,一般分帧帧长为15ms,语音采样频率11025Hz,帧长256样点,帧移128样点;
采用汉明窗对每帧信号x(n)进行平滑。
4.一种如权利要求2所述的语音识别方法,其特征在于,所述第一语音识别方法为:
获取所述语音信息中的特征参数;所述特征参数包含声调、频率、频率变化率、基音周期、增益和带通清/浊音强度;
若获取到的语音特征参数通过对应的ANN模型,进行语音识别;得到对应的词和句子。
所述第二语音识别方法为:
1)获取所述语音信息中的特征参数;在给定模型Λ条件下产生观测序列O的概率,定义一个前向变量αt(i):αt(t)=P{O1,O2,…,Ot;qt=Si|Λ}即:在给定模型条件下,产生t以前的部分观测符号序列,且t时刻又处于状态Si的概率;
初始化:
α1(i)=πibi(O1)1≤i≤N
π是初始状态分布,π={πi},πi=P[q1=Si],1≤j≤N,B为状态的观测符号概率分布;
B={bj(Ok)},bj(Ok)=P[在t时刻输出观测符号为Ok|qt=Sj],1≤j≤N,1≤k≤M;
迭代计算:
最后计算
其中aij为状态转移矩阵中的元素,bj(Ot)为观测符号矩阵中的元素;
2)Baum-Welch算法求出最优解λ*=arg max{P(O|Λ)};
3)Viterbi算法解出最佳状态转移序列;
4)根据最佳状态序列对应的λ给出候选音节或声韵母;
5)通过语言模型形成词和句子。
5.一种如权利要求2所述的语音识别方法,其特征在于,所述第一语音识别方法是基于预设模型的大词汇量语音识别方法,所述第二语音识别方法是基于辅助语音数据包的语音识别方法。
6.一种如权利要求4所述的语音识别方法,其特征在于,所述方法还包括:预先设置多个语音数据包,并将所述语音数据包存储于所述电子设备中,所述电子设备与处理器相连,所述处理器与服务器相连。