欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 201010623672X
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种计算机实现的用于对待处理的短文本信息进行扩展的方法,其中,该方法包括以下步骤:a获取所述待处理的短文本信息;

b基于该短文本信息来获取与其相关的一个或多个相关扩展信息;

c基于第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;

其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。

2.根据权利要求1所述的方法,其中,所述步骤c还包括以下步骤:-对所述相关扩展信息进行切分,获得多个特征信息;

-基于所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息。

3.根据权利要求1所述的方法,其中,所述步骤c还包括以下步骤:-基于所述第一预定规则,并根据所述短文本信息,由多个所述相关扩展信息中选择一个或多个相关扩展信息;

-对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息。

4.根据权利要求1至3中任一项所述的方法,其中,所述第一预定规则参考以下至少一项因素:-所述相关扩展信息与所述短文本信息的相关度;

-所述相关扩展信息的类别;

-所述短文本信息包含的信息单元在所述相关扩展信息中的分布状态;

-由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。

5.根据权利要求1至4中任一项所述的方法,其中,所述第一预定规则还参考以下至少一项因素:-由所述相关扩展信息切分得到的特征信息的分布状态;

-由所述相关扩展信息切分得到的特征信息的语义特征。

6.根据权利要求1至5中任一项所述的方法,其中,所述扩展特征词向量还包括分别与所述多个扩展特征信息相对应的多个权重值,其中,所述步骤c还包括以下步骤:

-基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信息的权重值。

7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括以下步骤:-建立和更新扩展特征向量库,其中,该扩展特征向量库包括多个短文本信息及其对应的扩展特征词向量;

其中,该方法还包括以下步骤:

A基于第二预定规则,根据所述待处理的短文本信息,在所述扩展特征向量库中进行查询,获得一个或多个相关短文本信息及其对应的扩展特征词向量;

B根据所获得的所述相关短文本信息的扩展特征词向量,来获得所述待处理短文本信息的扩展特征词向量。

8.根据权利要求7所述的方法,其中,所述第二预定规则包括根据多层级匹配规则,逐级地对所述待处理短文本信息进行预定处理,所述步骤A包括以下步骤:A1根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理;

A2判断处理后的待处理短文本信息是否能够与一个或多个已扩展短文本信息成功匹配;

A3当判断成功匹配时,将所述成功匹配的一个或多个已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征词向量;

其中,所述步骤B包括以下步骤:

B1根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量;

其中,所述步骤A1还包括以下步骤:

-当判断未能成功匹配时,选择下一层级匹配规则作为当前层级匹配规则;

-根据所选择的当前层级匹配规则对所述待处理短文本信息进行相应处理。

9.根据权利要求8所述的方法,其中,所述步骤A1中所述相应处理包括以下任一种:-保留所述待处理短文本信息的全部内容的处理;

-去除无效信息的处理;

-根据预设的词汇权重值来提取信息单元的处理;

-将所述待处理短文本信息与其他短文本信息进行聚合的处理。

10.根据权利要求8或9所述的方法,其中,所述步骤B1中所述获得所述待处理短文本信息扩展特征词向量的方法包括以下至少一种:-直接将所述相关短文本信息的扩展特征词向量作为所述待处理短文本信息的特征词向量;

-将多个所述相关短文本信息的扩展特征词向量进行合并处理后所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。

11.根据权利要求1至10中任一项所述的方法,其中,所述步骤b还包括以下步骤:b1获取基于短文本信息进行搜索而得到的一个或多个相关扩展信息。

12.根据权利要求11所述的方法,其中,在所述步骤b1之前还包括以下步骤:-对所述短文本信息进行切词,获得信息单元;

-根据语义分析及/或预设的所述信息单元的重要度,选择信息单元来生成检索信息;

其中,所述步骤b1还包括以下步骤:

-获取基于检索信息进行搜索而得到的相关扩展信息。

13.一种用于对待处理的短文本信息进行扩展的短文本处理装置,其中,该短文本处理装置包括:a第一获取装置,用于获取所述待处理的短文本信息;

b第二获取装置,用于通过所述短文本信息来获取与其相关的一个或多个相关扩展信息;

c第一扩展装置,用于根据第一预定规则,并根据所述短文本信息,由所述一个或多个相关扩展信息来获得所述短文本信息的扩展特征词向量;

其中,所述扩展特征词向量包括多个扩展特征信息,所述每个扩展特征信息与所述短文本信息不完全相同。

14.根据权利要求13所述的短文本处理装置,其中,所述第一扩展装置还包括:-第一分析装置,用于对所述相关扩展信息进行切分,获得多个特征信息;

-第一子扩展装置,用于根据所述第一预定规则,并根据所述短文本信息,由所述多个特征信息中选择所述多个扩展特征信息。

15.根据权利要求13所述的短文本处理装置,其中,所述第一扩展装置还包括:-第二分析装置,用于根据所述第一预定规则,并根据所述短文本信息,由多个所述相关扩展信息中选择一个或多个相关扩展信息;

-第二子扩展装置,用于对所选择的相关扩展信息进行切分,获得所述多个扩展特征信息。

16.根据权利要求13至15中任一项所述的短文本处理装置,其中,所述第一预定规则参考以下至少一项因素:-所述相关扩展信息与所述短文本信息的相关度;

-所述相关扩展信息的类别;

-所述短文本信息包含的信息单元在所述相关扩展信息中的分布状态;

-由所述相关扩展信息切分得到的特征信息与所述短文本信息的相似度。

17.根据权利要求13至16中任一项所述的短文本处理装置,其中,所述第一预定规则还参考以下至少一项因素:-由所述相关扩展信息切分得到的特征信息的分布状态;

-由所述相关扩展信息切分得到的特征信息的语义特征。

18.根据权利要求13至17中任一项所述的短文本处理装置,其中,所述扩展特征词向量还包括分别与所述多个扩展特征信息相对应的多个权重值,其中,所述第一扩展装置还包括:

权重获取装置,用于基于所述第一预定规则,并根据所述短文本信息获取所述多个扩展特征信息的权重值。

19.根据权利要求13至18中任一项所述的短文本处理装置,其中,该短文本处理装置还包括:更新装置,用于建立和更新扩展特征向量库,其中,该扩展特征向量库包括多个短文本信息及其对应的扩展特征词向量;

其中,该短文本处理装置还包括:

查询装置,用于基于第二预定规则,根据所述待处理的短文本信息,在所述扩展特征向量库中进行查询,获得一个或多个相关短文本信息及其对应的扩展特征词向量;

第二扩展装置,用于根据所获得的所述相关短文本信息的扩展特征词向量,来获得所述待处理短文本信息的扩展特征词向量。

20.根据权利要求19所述的短文本处理装置,其中,所述第二预定规则包括根据多层级匹配规则,逐级地对所述待处理短文本信息进行预定处理,所述查询装置包括:处理装置,用于根据所述待处理短文本信息的当前层级匹配规则对其进行相应处理;

判断装置,用于判断处理后的待处理短文本信息是否能够与一个或多个已扩展短文本信息成功匹配;

第三获取装置,用于当判断成功匹配时,将所述成功匹配的一个或多个已扩展短文本信息作为所述相关短文本信息,并获取该相关短文本信息对应的扩展特征词向量;

其中,所述第二扩展装置包括:

第三子扩展装置,用于根据所述相关短文本信息的扩展特征词向量及当前匹配层级来获得所述待处理短文本信息的扩展特征词向量;

其中,所述处理装置还包括:

层级选择装置,用于当判断未能成功匹配时,选择下一层级匹配规则作为当前层级匹配规则;

子处理装置,用于根据所选择的当前层级匹配规则对所述待处理短文本信息进行相应处理。

21.根据权利要求20所述的短文本处理装置,其中,所述处理装置所执行的所述相应处理包括以下任一种:-保留所述带扩展短文本信息的全部内容的处理;

-去除无效信息的处理;

-根据预设的词汇权重值来提取信息单元的处理;

-将所述待处理短文本信息与其他短文本信息进行聚合的处理。

22.根据权利要求20或21所述的短文本处理装置,其中,所述第三子扩展装置包括以下至少一个装置:直接匹配装置,用于直接将所述相关短文本信息的扩展特征词向量作为所述待处理短文本信息的特征词向量;

合并匹配装置,用于将多个所述相关短文本信息的扩展特征词向量进行合并处理后所得的扩展特征词向量作为所述待处理短文本信息的特征词向量。

23.根据权利要求13至22中任一项所述的短文本处理装置,其中,所述第二获取装置还包括:搜索获取装置,用于获取基于短文本信息进行搜索而得到的一个或多个相关扩展信息。

24.根据权利要求23所述的短文本处理装置,其中,该短文本处理装置还包括:分词装置,用于对所述短文本信息进行切词,获得信息单元;

检索信息生成装置,用于根据语义分析及预设的所述信息单元的重要度,选择信息单元来生成检索信息;

其中,所述搜索获取装置还用于:

获取基于检索信息进行搜索而得到的相关扩展信息。

25.一种计算机设备,其中,该计算机设备包括如权利要求13至24中任一项所述的短文本处理装置。