1.一种语言模型训练系统,其特征在于,包括:
第一收集单元,用于收集语音搜索的标注结果日志;
第一训练单元,用于对标注结果日志进行训练,并生成标注结果语言模型;
第一语言模型库,用于存储所述标注结果语言模型;
第二收集单元,用于收集文本搜索的检索日志;
第二训练单元,用于对检索日志进行训练,并生成检索日志语言模型;
第二语言模型库,用于存储所述检索日志语言模型;
结合单元,用于将第一语言模型库中存储的所述标注结果语言模型以及第二语言模型库中存储的所述检索日志语言模型相结合;
第三语言模型库,用于存储结合后得到的语言模型。
2.根据权利要求1所述的系统,其特征在于,还包括:
第一日志预处理单元,用于预处理所述第一收集单元收集的标注结果日志,以及将预处理后的标注结果日志交由第一训练单元进行训练;
第二日志预处理单元,用于预处理第二收集单元收集的检索日志,以及将预处理后的检索日志交由第二训练单元进行训练。
3.根据权利要求1所述的系统,其特征在于,所述第一语言模型库存储的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出:其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数;
所述第二语言模型库存储的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
4.根据权利要求3所述的系统,其特征在于,所述第三语言模型库存储的结合后得到的语言模型中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);
其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数。
5.根据权利要求4所述的系统,其特征在于,所述λ2大于所述λ1。
6.一种语言模型训练方法,其特征在于,包括下列步骤:
S1、收集语音搜索的标注结果日志,对标注结果日志进行训练,生成并存储标注结果语言模型;以及,收集文本搜索的检索日志,对检索日志进行训练,生成并存储检索日志语言模型;
S2、将存储的所述标注结果语言模型以及所述检索日志语言模型相结合,存储结合后得到的语言模型。
7.根据权利要求6所述的方法,其特征在于,还包括:
步骤S1中,收集语音搜索的标注结果日志之后,对标注结果日志进行训练之前,预处理所述收集的标注结果日志;以及训练所述预处理后的标注结果日志;
步骤S1中,收集文本搜索的检索日志之后,对检索日志进行训练之前,预处理所述的检索日志;以及训练所述预处理后的检索日志。
8.根据权利要求6所述的方法,其特征在于,所述的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出:其中Pa(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在标注结果文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数;
所述的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出:其中Pb(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;C(w1w2...wn)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的次数;∑wC(w1...wn-1w)为在检索日志文本中,词语w1、w2、…、wn-1按顺序出现之后文法接续任一词语的次数之和;n为预设的大于1的正整数。
9.根据权利要求8所述的方法,其特征在于,步骤S2中所述的结合后得到的语言模型中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:Pc(wn|w1w2...wn-1)=λ1Pa(wn|w1w2...wn-1)+λ2Pb(wn|w1w2...wn-1);
其中Pc(wn|w1w2...wn-1)为词语w1、w2、…、wn-1按顺序出现之后文法接续词语wn的条件概率;λ1和λ2为插值系数。
10.根据权利要求9所述的方法,其特征在于,所述λ2大于所述λ1。
11.一种语音识别系统,其特征在于,包括:客户端和服务器;
所述客户端,用于接收用户发起的语音请求,将该语音请求发送给所述服务器;
所述服务器,用于利用语言模型对所述语音请求进行识别,得到语音识别结果;
其中,所述语言模型为权利要求1至5任一项训练出的所述结合后得到的语言模型。
12.一种语音识别方法,其特征在于,包括下列步骤:
接收用户发起的语音请求;根据语言模型对所述语音请求进行识别,得出识别结果;
其中,所述语言模型为权利要求6至10任一项训练出的所述结合后得到的语言模型。