知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

语言模型训练系统、语音识别系统及相应方法

￥28000

专利号： 2012105338871

申请人：北京百度网讯科技有限公司

专利类型：发明专利

专利状态：已下证

专利领域：乐器；声学

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种语言模型训练系统，其特征在于，包括：

第一收集单元，用于收集语音搜索的标注结果日志；

第一日志预处理单元，用于预处理所述第一收集单元收集的标注结果日志，以及将预处理后的标注结果日志交由第一训练单元进行训练；

第一训练单元，用于对标注结果日志进行训练，并生成标注结果语言模型；

第一语言模型库，用于存储所述标注结果语言模型；

第二收集单元，用于收集文本搜索的检索日志；

第二日志预处理单元，用于预处理第二收集单元收集的检索日志，以及将预处理后的检索日志交由第二训练单元进行训练；

第二训练单元，用于对检索日志进行训练，并生成检索日志语言模型；

第二语言模型库，用于存储所述检索日志语言模型；

结合单元，用于将第一语言模型库中存储的所述标注结果语言模型以及第二语言模型库中存储的所述检索日志语言模型相结合；

第三语言模型库，用于存储结合后得到的语言模型。

2.根据权利要求1所述的系统，其特征在于，所述第一语言模型库存储的标注结果语言模型中包括：各词语在标注结果文本中的文法概率关系，所述文法概率关系通过下述公式得出：其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率；C(w1w2...wn)为在标注结果文本中，词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数；∑wC(w1...wn-1w)为在标注结果文本中，词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和；n为预设的大于1的正整数；

所述第二语言模型库存储的检索日志语言模型中包括：各词语在检索日志文本中的文法概率关系，所述文法概率关系通过下述公式得出：其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率；C(w1w2...wn)为在检索日志文本中，词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数；∑wC(w1...wn-1w)为在检索日志文本中，词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和；n为预设的大于1的正整数。

3.根据权利要求2所述的系统，其特征在于，所述第三语言模型库存储的结合后得到的语言模型中包括：各词语的文法概率关系，各词语的文法概率关系通过下述公式得出：Pc(wn|w1w2...wn-1)＝λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1)；

其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率；λ1和λ2为插值系数。

4.根据权利要求3所述的系统，其特征在于，所述λ2大于所述λ1。

5.一种语言模型训练方法，其特征在于，包括下列步骤：

S1、收集语音搜索的标注结果日志，预处理收集的标注结果日志，对标注结果日志进行训练，生成并存储标注结果语言模型；以及，收集文本搜索的检索日志，预处理所述的检索日志，对检索日志进行训练，生成并存储检索日志语言模型；

S2、将存储的所述标注结果语言模型以及所述检索日志语言模型相结合，存储结合后得到的语言模型。

6.根据权利要求5所述的方法，其特征在于，所述的标注结果语言模型中包括：各词语在标注结果文本中的文法概率关系，所述文法概率关系通过下述公式得出：其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率；C(w1w2...wn)为在标注结果文本中，词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数；∑wC(w1...wn-1w)为在标注结果文本中，词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和；n为预设的大于1的正整数；

所述的检索日志语言模型中包括：各词语在检索日志文本中的文法概率关系，所述文法概率关系通过下述公式得出：其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率；C(w1w2...wn)为在检索日志文本中，词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数；∑wC(w1...wn-1w)为在检索日志文本中，词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和；n为预设的大于1的正整数。

7.根据权利要求6所述的方法，其特征在于，步骤S2中所述的结合后得到的语言模型中包括：各词语的文法概率关系，各词语的文法概率关系通过下述公式得出：Pc(wn|w1w2...wn-1)＝λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1)；

其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率；λ1和λ2为插值系数。

8.根据权利要求7所述的方法，其特征在于，所述λ2大于所述λ1。

9.一种语音识别系统，其特征在于，包括：客户端和服务器；

所述客户端，用于接收用户发起的语音请求，将该语音请求发送给所述服务器；

所述服务器，用于利用语言模型对所述语音请求进行识别，得到语音识别结果；

其中，所述语言模型为权利要求1至4任一项训练出的所述结合后得到的语言模型。

10.一种语音识别方法，其特征在于，包括下列步骤：

接收用户发起的语音请求；

根据语言模型对所述语音请求进行识别，得出识别结果；

其中，所述语言模型为权利要求5至8任一项训练出的所述结合后得到的语言模型。