知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种语音识别方法

￥41000

专利号： 201811186096X

申请人：河南工学院

专利类型：发明专利

专利状态：已下证

专利领域：乐器；声学

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种语音识别方法，其特征在于，该语音识别方法包括：

获取语音信息；

利用第一语音识别方法识别所述语音信息得到第一语音识别结果，利用第二语音识别方法识别所述语音信息得到第二语音识别结果；及比对第一语音识别结果及所述第二语音识别结果，根据比对结果，输出语音识别结果，并显示；

所述根据比对结果，输出语音识别结果的具体方法为：

S1：为所述第一语音识别结果与第二语音识别结果进行比较，如果第一语音识别结果与第二语音识别结果覆盖率低于设定阈值，则执行如下步骤，其中所述覆盖率是指完全重复的比率，从第一个字符开始注意比对，比对相同的字符数占总字符数的比率：判断第一语音识别结果与第二语音识别结果的字符数是否相同；

1)若相同，将第一语音识别结果与第二语音识别结果进行匹配，统计匹配数量；并计算相似度R：R＝Q(R1,R2)/Max(|R1|,|R2|)；Q(R1,R2)，表示R1、R2中相同的数量；即第一语音识别结果与第二语音识别结果中相同的数量；Max(|R1|,|R2|)表示R1、R2中的最大值；执行S2；

2)若不相同，将第一语音识别结果与第二语音识别结果的无关字符删除，包括：将停用字符、连续相同的字符删除；得到修正后的第一语音识别结果与修正后的第二语音识别结果；再次判断修正后的第一语音识别结果与修正后的第二语音识别结果的字符数是否相同，若相同，则R＝Q(R1,R2)/Max(|R1|,|R2|)；Q(R1,R2)，表示R1、R2中相同的数量；即修正后的第一语音识别结果与修正后的第二语音识别结果中相同的数量；Max(|R1|,|R2|)表示R1、R2中的最大值；执行S2；

若修正后的第一语音识别结果与修正后的第二语音识别结果的字符数不相同，分别从前至后比较修正后的第一语音识别结果与修正后的第二语音识别结果，并计算相似度RA：RA＝Q1(R1,R2)/Max(|R1|,|R2|)；

Q1(R1,R2)，表示从前至后比较修正后的第一语音识别结果与修正后的第二语音识别结果中相同的数量；Max(|R1|,|R2|)表示R1、R2中的最大值；

从后至前比较修正后的第一语音识别结果与修正后的第二语音识别结果，并计算相似度RB：RB＝Q2(R1,R2)/Max(|R1|,|R2|)；

Q2(R1,R2)，表示从后至前比较修正后的第一语音识别结果与修正后的第二语音识别结果中相同的数量；Max(|R1|,|R2|)表示R1、R2中的最大值；

比较RA、RB，R＝max(RA，RB)；执行S2；

S2：如果R小于指定值，则摒弃该识别结果，重新采样。

2.一种如权利要求1所述的语音识别方法，其特征在于，

在获取语音信息后，对所述语音信息进行预处理；

所述预处理方法包括流利程度检测，端点检测，预加重，分帧，加窗；

1)端点检测

所述端点检测采用如下方式：设定时间阈值T0、时间间隔△t、声音阈值V0，通过音频信号采集电路进行信号采集，连续采集N个时间节点的的声音信号，；

如果满足INT(0.6N)个时间节点的声音信号，则认为检测到声音，并将状态为S置1；

其中，INT(·)表示取整；如果在检测到声音时，之前的状态S＝0，则认为检测到声音的起点；

如果满足INT(0.6N)个时间节点的声音信号，则认为没有检测到声音，并将状态为S置0；其中，INT(·)表示取整；如果在检测到声音时，之前的状态S＝1，则认为检测到声音的终点；

在端点检测完毕之后，将声音信号两端的静音切除；

2)流利程度检测

将语音截成前后两部分，并对前半部份和后半部份进行采样，连续采集M个时间节点的的声音信号，若如果满足M个时间节点的声音信号，则认为流畅程度存在问题，此时，对该部分语音进行切除，切除后的语音为有效语音段；分别计算前后两部分的有效语音段的长度，选取长度较小的数值与总待评分语音的长度数值作除运算，并将得到的值与对应的阈值相比较，若大于对应的阈值，则判定为流利；否则，判定为不流利；

3)预加重

采用预加重系数为0.91的高通滤波器H(z)＝1‑αz‑1消除信号衰减，提升信号的高频部分；对预加重后的信号进行分帧，一般分帧帧长为15ms，语音采样频率11025Hz，帧长256样点，帧移128样点；

采用汉明窗对每帧信号x(n)进行平滑。

3.一种如权利要求1所述的语音识别方法，其特征在于，所述第一语音识别方法是基于预设模型的大词汇量语音识别方法，所述第二语音识别方法是基于辅助语音数据包的语音识别方法。

4.一种如权利要求2所述的语音识别方法，其特征在于，所述方法还包括：预先设置多个语音数据包，并将所述语音数据包存储于电子设备中，所述电子设备与处理器相连，所述处理器与服务器相连。