欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 201410608667X
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种分词训练数据的构造方法,其特征在于,包括:获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题;

将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;

根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。

2.根据权利要求1所述的方法,其特征在于,所述公共字符串为所述查询语句与所述网页标题所共有的,并且长度最长的连续的子字符串。

3.根据权利要求2所述的方法,其特征在于,获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括:获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题;

将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配;

将匹配得到的长度最长的连续的子字符串作为所述公共字符串。

4.根据权利要求2所述的方法,其特征在于,获取用户的一次查询会话中用户的查询语句及用户最终所点击网页的网页标题包括:获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题;

将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串包括:使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配;

分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将所述长度最长的连续的子字符串作为备选公共字符串;

将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。

5.根据权利要求3或4所述的方法,其特征在于,所述字符串匹配算法包括:KMP算法、Horspool算法或者Boyer Moore算法。

6.一种分词训练数据的构造装置,其特征在于,包括:数据获取模块,用于获取用户的一次查询会话中用户的查询语句及用户在该查询语句的查询结果中所点击网页链接的网页标题;

数据比对模块,用于将所述查询语句与所述网页标题进行比对,以获取所述查询语句与所述网页标题之间的公共字符串;

分词模块,用于根据获取到的所述公共字符串对所述查询语句与所述网页标题进行分词,得到分词训练数据。

7.根据权利要求6所述的装置,其特征在于,所述公共字符串为所述查询语句与所述网页标题所共有的,并且长度最长的连续的子字符串。

8.根据权利要求7所述的装置,其特征在于,所述数据获取模块包括:第一数据获取单元,用于获取用户的一次查询会话中用户的查询语句及用户最终所点击的一个网页链接的网页标题;

所述数据比对模块包括:

第一匹配单元,用于使用字符串匹配算法将所述查询语句与所述一个网页链接的网页标题进行匹配;

第一公共字符串获取单元,用于将匹配得到的长度最长的连续的子字符串作为所述公共字符串。

9.根据权利要求7所述的装置,其特征在于,所述数据获取模块包括:第二数据获取单元,用于获取用户的一次查询会话中用户的查询语句及用户所点击的至少两个网页链接的网页标题;

所述数据比对模块包括:

第二匹配单元,用于使用字符串匹配算法将所述查询语句与所述至少两个网页链接的网页标题分别进行匹配;

备选公共字符串获取单元,用于分别获取所述查询语句与所述至少两个网页链接中每个网页链接的网页标题的长度最长的连续的子字符串,并将所述长度最长的连续的子字符串作为备选公共字符串;

第二公共字符串获取单元,用于将所述备选公共字符串中出现次数最多的备选公共字符串作为公共字符串。

10.根据权利要求8或9所述的装置,其特征在于,所述字符串匹配算法包括:KMP算法、Horspool算法或者Boyer Moore算法。