欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2015109778130
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种解析口语文本信息的语义的方法,包括:

对接收的口语文本信息进行分词以提取特征;

由提取的特征中的名词确定所述口语文本信息的关联领域;

响应于所述提取的特征匹配预设的数据库中所述关联领域的预设特征,将所述预设特征在所述关联领域的权重值确定为所述提取的特征在所述关联领域的权重值,其中,所述预设的数据库包括预设特征在多个领域的权重值,所述多个领域包括所述关联领域;

基于所述提取的特征在所述关联领域的权重值,确定所述文本信息在所述关联领域的正则表达式的分值;

对所述分值进行排序,根据排序的结果获取预设数量的正则表达式;

将获取的正则表达式作为所述口语文本信息的解析文本。

2.根据权利要求1所述的方法,其特征在于,所述预设特征在多个领域的权重值通过以下处理确定:在多个领域的每一个领域中将预设特征出现的次数除以出现预设特征的文本信息样本的总词语数,得到预设特征在每一个领域出现的频率;

将出现所述预设特征的文本信息样本的数量除以总文本信息样本的数量,得到所述预设特征的逆向文件频率,其中,所述出现所述预设特征的文本信息样本以及所述总文本信息样本由已解析语义的口语文本信息的历史数据得到;

将所述预设特征在每一个领域出现的频率乘以所述预设特征的逆向文件频率,得到预设特征在每一个领域的权重值,以及根据所述预设特征在每一个领域的权重值,得到所述预设特征在多个领域的权重值。

3.根据权利要求1或2任意一项所述的方法,其特征在于,所述基于所述提取的特征在所述关联领域的权重值,确定所述文本信息在所述关联领域的正则表达式的分值包括:在所述关联领域中,将所述提取的特征中命中正则表达式的特征的权重值相加,得到所述文本信息在所述关联领域的正则表达式的分值。

4.根据权利要求3所述的方法,其特征在于,所述响应于所述提取的特征匹配预设的数据库中所述关联领域的预设特征,将所述预设特征在所述关联领域的权重值确定为所述提取的特征在所述关联领域的权重值包括:滤除所述提取的特征中命中预设过滤词表的特征,得到过滤后的特征;响应于所述过滤后的特征匹配预设的数据库中所述关联领域的预设特征,将所述预设特征在所述关联领域的权重值确定为所述过滤后的特征在所述关联领域的权重值;以及所述在所述关联领域中,将所述提取的特征中命中正则表达式的特征的权重值相加,得到所述文本信息在所述关联领域的正则表达式的分值包括:在所述关联领域中,将所述过滤后的特征中命中正则表达式的特征的权重值相加,得到所述文本信息的正则表达式的分值。

5.根据权利要求4所述的方法,其特征在于,所述基于所述提取的特征在所述关联领域的权重值,确定所述文本信息在所述关联领域的正则表达式的分值还包括:由以下步骤得到文本信息在所述关联领域的正则表达式:

从所述提取的特征中识别实体信息的类型标签;

响应于识别的类型标签匹配预置数据库中所述关联领域的正则表达式具有的预设的类型标签,将具有预设的类型标签的正则表达式作为所述文本信息在所述关联领域的正则表达式,其中,所述预置的数据库包括在所述多个领域的具有预设类型标签的正则表达式。

6.根据权利要求5所述的方法,其特征在于,所述从所述提取的特征中识别实体信息的类型标签包括:从所述提取的特征中识别实体信息的动词、名词以及动词和名词之间的位置关系;以及所述响应于识别的类型标签匹配预置数据库中所述关联领域的正则表达式具有的预设的类型标签,将具有预设的类型标签的正则表达式作为所述文本信息在所述关联领域的正则表达式包括:响应于识别的动词、名词以及动词和名词之间的位置关系匹配预置数据库中所述关联领域的正则表达式具有的预设的动词、名词以及动词和名词之间的位置关系,将具有预设的动词、名词以及动词和名词之间的位置关系的正则表达式作为所述文本信息在所述关联领域的正则表达式。

7.一种解析口语文本信息的语义的装置,包括:

特征提取模块,用于对接收的口语文本信息进行分词以提取特征;

领域确定模块,用于由提取的特征中的名词确定所述口语文本信息的关联领域;

权重确定模块,用于响应于所述提取的特征匹配预设的数据库中所述关联领域的预设特征,将所述预设特征在所述关联领域的权重值确定为所述提取的特征在所述关联领域的权重值,其中,所述预设的数据库包括预设特征在多个领域的权重值,所述多个领域包括所述关联领域;

分值确定模块,用于基于所述提取的特征在所述关联领域的权重值,确定所述文本信息在所述关联领域的正则表达式的分值;

表达式获取模块,用于对所述分值进行排序,根据排序的结果获取预设数量的正则表达式;

解析文本模块,用于将获取的正则表达式作为所述口语文本信息的解析文本。

8.根据权利要求7所述的装置,其特征在于,所述权重确定模块中的所述预设特征在多个领域的权重值通过以下模块确定:出现频率获取模块,用于在多个领域的每一个领域中将预设特征出现的次数除以出现预设特征的文本信息样本的总词语数,得到预设特征在每一个领域出现的频率;

逆向文件频率获取模块,用于将出现所述预设特征的文本信息样本的数量除以总文本信息样本的数量,得到所述预设特征的逆向文件频率,其中,所述出现所述预设特征的文本信息样本以及所述总文本信息样本由已解析语义的口语文本信息的历史数据得到;

权重值获取模块,用于将所述预设特征在每一个领域出现的频率乘以所述预设特征的逆向文件频率,得到预设特征在每一个领域的权重值,以及根据所述预设特征在每一个领域的权重值,得到所述预设特征在多个领域的权重值。

9.根据权利要求7或8任意一项所述的装置,其特征在于,所述分值确定模块包括:相加子模块,用于在所述关联领域中,将所述提取的特征中命中正则表达式的特征的权重值相加,得到所述文本信息在所述关联领域的正则表达式的分值。

10.根据权利要求9所述的装置,其特征在于,所述权重确定模块包括:特征滤除子模块,用于滤除所述提取的特征中命中预设过滤词表的特征,得到过滤后的特征;权重确定子模块,用于响应于所述过滤后的特征匹配预设的数据库中所述关联领域的预设特征,将所述预设特征在所述关联领域的权重值确定为所述过滤后的特征在所述关联领域的权重值;

以及

所述相加子模块包括:在所述关联领域中,将所述过滤后的特征中命中正则表达式的特征的权重值相加,得到所述文本信息的正则表达式的分值。

11.根据权利要求10所述的装置,其特征在于,所述分值确定模块还包括:

表达式确定模块,包括:

类型标签识别模块,用于从所述提取的特征中识别实体信息的类型标签;

表达式匹配模块,用于响应于识别的类型标签匹配预置数据库中所述关联领域的正则表达式具有的预设的类型标签,将具有预设的类型标签的正则表达式作为所述文本信息在所述关联领域的正则表达式,其中,所述预置的数据库包括在所述多个领域的具有预设类型标签的正则表达式。

12.根据权利要求11所述的装置,其特征在于,所述类型标签识别模块进一步用于:从所述提取的特征中识别实体信息中的动词、名词以及动词和名词之间的位置关系;以及所述表达式匹配模块进一步用于:响应于识别的动词、名词以及动词和名词之间的位置关系匹配预置数据库中所述关联领域的正则表达式具有的预设的动词、名词以及动词和名词之间的位置关系,将具有预设的动词、名词以及动词和名词之间的位置关系的正则表达式作为所述文本信息在所述关联领域的正则表达式。