欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2012102269314
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-04-18
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种用于根据语料序列训练语言模型的方法,其中,该方法包括以下步骤:a获取拟用于训练目标语言模型的语料序列;

b设置所述目标语言模型的初始阶数信息以作为其当前训练阶数,并结合所述目标语言模型的最高阶数信息,迭代执行以下操作,直至所述当前训练阶数超过所述最高阶数信息:b1根据所述当前训练阶数,确定与所述目标语言模型相对应的平滑算法;

b2根据所述语料序列,通过所述平滑算法,对所述目标语言模型进行训练处理,以获得更新后的所述目标语言模型;

b3更新所述当前训练阶数。

2.根据权利要求1所述的方法,其中,所述步骤b1包括:b11根据所述当前训练阶数,确定所述语料序列在所述当前训练阶数下的数据特征信息;

b12根据所述数据特征信息,确定与所述目标语言模型相对应的平滑算法。

3.根据权利要求2所述的方法,其中,所述步骤b12包括:-当所述数据特征信息高于预定的第一数据数量阈值,将katz平滑算法作为与所述目标语言模型相对应的平滑算法。

4.根据权利要求2所述的方法,其中,所述步骤b12包括:-当所述数据特征信息低于预定的第二数据数量阈值,将KN平滑算法作为与所述目标语言模型相对应的平滑算法。

5.根据权利要求1至4中任一项所述的方法,其中,所述步骤b1包括:-当所述当前训练阶数低于三阶,将katz平滑算法作为与所述目标语言模型相对应的平滑算法。

6.根据权利要求1至4中任一项所述的方法,其中,所述步骤b1包括:-当所述当前训练阶数高于二阶,将KN平滑算法作为与所述目标语言模型相对应的平滑算法。

7.根据权利要求1至4中任一项所述的方法,其中,所述步骤b2还包括:-根据所述语料序列与词库的比较结果,并结合所述当前训练阶数,确定待平滑处理的目标序列;

-通过所述平滑算法,确定所述目标序列的平滑概率值;

-根据所述平滑概率值,对所述目标语言模型进行训练处理,以获得更新后的所述目标语言模型。

8.根据权利要求1至4中任一项所述的方法,其中,所述步骤a包括:-获取拟用于训练所述目标语言模型的语料信息;

-对所述语料信息进行预处理,以获得所述语料序列;

其中,所述预处理包括以下至少任一项:-切词处理;

-中文转换处理。

9.根据权利要求1至4中任一项所述的方法,其中,该方法还包括:-获取用户为目标应用输入的语音序列;

-根据所述更新后的目标语言模型,确定与所述语音序列相对应的字符序列;

x将与所述字符序列相对应的信息提供给所述用户。

10.根据权利要求9所述的方法,其中,所述目标应用为语音输入应用;

其中,所述步骤x包括:

-将所述字符序列作为语音输入候选词条提供给所述用户。

11.根据权利要求9所述的方法,其中,所述目标应用为语音搜索应用;

其中,该方法还包括:

-将所述字符序列作为所述用户的查询序列,获取与所述查询序列相对应的一个或多个搜索结果;

其中,所述步骤x包括:

-将所述一个或多个搜索结果提供给所述用户。

12.一种用于根据语料序列训练语言模型的模型训练设备,其中,该设备包括:序列获取装置,用于获取拟用于训练目标语言模型的语料序列;

迭代执行装置,用于设置所述目标语言模型的初始阶数信息以作为其当前训练阶数,并结合所述目标语言模型的最高阶数信息,迭代执行以下装置所执行的操作,直至所述当前训练阶数超过所述最高阶数信息:算法确定装置,用于根据所述当前训练阶数,确定与所述目标语言模型相对应的平滑算法;

模型训练装置,用于根据所述语料序列,通过所述平滑算法,对所述目标语言模型进行训练处理,以获得更新后的所述目标语言模型;

阶数更新装置,用于更新所述当前训练阶数。

13.根据权利要求12所述的模型训练设备,其中,所述算法确定装置还包括:特征确定单元,用于根据所述当前训练阶数,确定所述语料序列在所述当前训练阶数下的数据特征信息;

算法确定单元,用于根据所述数据特征信息,确定与所述目标语言模型相对应的平滑算法。

14.根据权利要求13所述的模型训练设备,其中,所述算法确定单元用于:-当所述数据特征信息高于预定的第一数据数量阈值,将katz平滑算法作为与所述目标语言模型相对应的平滑算法。

15.根据权利要求13所述的模型训练设备,其中,所述算法确定单元用于:-当所述数据特征信息低于预定的第二数据数量阈值,将KN平滑算法作为与所述目标语言模型相对应的平滑算法。

16.根据权利要求12至15中任一项所述的模型训练设备,其中,所述算法确定装置用于:-当所述当前训练阶数低于三阶,将katz平滑算法作为与所述目标语言模型相对应的平滑算法。

17.根据权利要求12至15中任一项所述的模型训练设备,其中,所述算法确定装置用于:-当所述当前训练阶数高于二阶,将KN平滑算法作为与所述目标语言模型相对应的平滑算法。

18.根据权利要求12至15中任一项所述的模型训练设备,其中,所述模型训练装置用于:-根据所述语料序列与词库的比较结果,并结合所述当前训练阶数,确定待平滑处理的目标序列;

-通过所述平滑算法,确定所述目标序列的平滑概率值;

-根据所述平滑概率值,对所述目标语言模型进行训练处理,以获得更新后的所述目标语言模型。

19.根据权利要求12至15中任一项所述的模型训练设备,其中,所述序列获取装置用于:-获取拟用于训练所述目标语言模型的语料信息;

-对所述语料信息进行预处理,以获得所述语料序列;

其中,所述预处理包括以下至少任一项:-切词处理;

-中文转换处理。

20.根据权利要求12至15中任一项所述的模型训练设备,其中,该设备还包括:语音获取装置,用于获取用户为目标应用输入的语音序列;

序列确定装置,用于根据所述更新后的目标语言模型,确定与所述语音序列相对应的字符序列;

信息提供装置,用于将与所述字符序列相对应的信息提供给所述用户。

21.根据权利要求20所述的模型训练设备,其中,所述目标应用为语音输入应用;

其中,所述信息提供装置用于:

-将所述字符序列作为语音输入候选词条提供给所述用户。

22.根据权利要求20所述的模型训练设备,其中,所述目标应用为语音搜索应用;

其中,该设备还包括:

搜索获取装置,用于将所述字符序列作为所述用户的查询序列,获取与所述查询序列相对应的一个或多个搜索结果;

其中,所述信息提供装置用于:

-将所述一个或多个搜索结果提供给所述用户。