欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2015101499011
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种搜索排序方法,其特征在于,所述方法包括:使用查询条目样本以及相应的正例搜索条目样本和负例搜索条目样本,对以短语向量集合为参数的预设模型进行训练,确定所述短语向量集合;

基于所述短语向量集合,分别计算待响应的查询条目与对应的各搜索条目的相似度;

根据所述相似度确定对所述查询条目进行响应时,各所述搜索条目的呈现顺序;

其中,所述方法还包括:

分别将所述查询条目样本、正例搜索条目样本和负例搜索条目样本转换为以所述短语向量集合为参数的待定叠加向量;

分别计算所述查询条目样本的待定叠加向量与所述正例搜索条目样本和所述负例搜索条目样本的待定叠加向量的第一相似度和第二相似度;

以所述第一相似度与所述第二相似度的差值最大化为训练目标,构建所述以短语向量集合为参数的预设模型。

2.根据权利要求1所述的方法,其特征在于,所述分别将所述查询条目样本、正例搜索条目样本和负例搜索条目样本转换为以所述短语向量集合为参数的待定叠加向量,包括:构建所述查询条目样本与所述正例搜索条目样本的短语对应表;

基于所述短语对应表,将所述查询条目样本、正例搜索条目样本和负例搜索条目样本分别拆分为一个第一短语序列,所述第一短语序列中包括至少一个短语;

将所述第一短语序列中的各短语分别转换为待定短语向量;

分别将每个所述第一短语序列中的所有待定短语向量进行叠加,得到所述查询条目样本、正例搜索条目样本和负例搜索条目样本的以所述短语向量集合为参数的待定叠加向量;

其中,作为所述参数的短语向量集合中包括所述待定短语向量。

3.根据权利要求2所述的方法,其特征在于,

所述预设模型为损失函数模型;

所述使用查询条目样本以及相应的正例搜索条目样本和负例搜索条目样本,对以短语向量集合为参数的预设模型进行训练,确定所述短语向量集合包括:将所述查询条目样本、正例搜索条目样本和负例搜索条目样本的待定叠加向量作为样本数据,对所述损失函数模型进行训练;

当所述损失函数模型的值最小时,得到所述短语向量集合。

4.根据权利要求2所述的方法,其特征在于,所述构建所述查询条目样本与所述正例搜索条目样本的短语对应表包括:将所述查询条目样本与对应的所述正例搜索条目样本进行词语对齐;

将对齐后的所述查询条目样本和所述正例搜索条目样本进行短语抽取,得到所述短语对应表。

5.根据权利要求2所述的方法,其特征在于,所述基于所述短语向量集合,分别计算待响应的查询条目与对应的各搜索条目的相似度包括:基于所述短语对应表,将所述待响应的查询条目以及对应的各搜索条目分别拆分为一个第二短语序列,所述第二短语序列中包括至少一个短语;

根据所述短语向量集合,获取所述第二短语序列中各短语的短语向量;

分别将每个所述第二短语序列中的所有短语向量进行叠加,得到所述查询条目以及各所述搜索条目的叠加向量;

分别计算所述查询条目的叠加向量与各所述搜索条目的叠加向量的相似度。

6.根据权利要求5所述的方法,其特征在于,采用最大匹配方式将所述查询条目样本、正例搜索条目样本和负例搜索条目样本分别拆分为一个第一短语序列和/或将所述待响应的查询条目以及对应的各搜索条目分别拆分为一个第二短语序列。

7.根据权利要求1至6任一项所述的方法,其特征在于,所述短语向量为维度不大于

1000的低维度实数向量。

8.一种搜索排序装置,其特征在于,所述装置包括:向量确定模块,用于使用查询条目样本以及相应的正例搜索条目样本和负例搜索条目样本,对以短语向量集合为参数的预设模型进行训练,确定所述短语向量集合;

计算模块,用于基于所述短语向量集合,分别计算待响应的查询条目与对应的各搜索条目的相似度;

排序模块,用于根据所述相似度确定对所述查询条目进行响应时,各所述搜索条目的呈现顺序;

其中,所述装置还包括:

样本转换模块,用于分别将所述查询条目样本、正例搜索条目样本和负例搜索条目样本转换为以所述短语向量集合为参数的待定叠加向量;

样本计算模块,用于分别计算所述查询条目样本的待定叠加向量与所述正例搜索条目样本和所述负例搜索条目样本的待定叠加向量的第一相似度和第二相似度;

模型构建模块,用于以所述第一相似度与所述第二相似度的差值最大化为训练目标,构建所述以短语向量集合为参数的预设模型。

9.根据权利要求8所述的装置,其特征在于,所述样本转换模块包括:短语表构建单元,用于构建所述查询条目样本与所述正例搜索条目样本的短语对应表;

第一拆分单元,用于基于所述短语对应表,将所述查询条目样本、正例搜索条目样本和负例搜索条目样本分别拆分为一个第一短语序列,所述第一短语序列中包括至少一个短语;

短语转换单元,用于将所述第一短语序列中的各短语转换为待定短语向量;

第一叠加单元,用于分别将每个所述第一短语序列中的所有待定短语向量进行叠加,得到所述查询条目样本、正例搜索条目样本和负例搜索条目样本的以所述短语向量集合为参数的待定叠加向量;

其中,作为所述参数的短语向量集合中包括所述待定短语向量。

10.根据权利要求9所述的装置,其特征在于,

所述预设模型为损失函数模型,

所述向量确定模块包括:

模型训练单元,用于将所述查询条目样本、正例搜索条目样本和负例搜索条目样本的待定叠加向量作为样本数据,对所述损失函数模型进行训练;

参数确定单元,用于当所述损失函数模型的值最小时,得到所述短语向量集合。

11.根据权利要求9所述的装置,其特征在于,所述短语表构建单元包括:词语对齐单元,用于将所述查询条目样本与对应的所述正例搜索条目样本进行词语对齐;

短语抽取单元,用于将对齐后的所述查询条目样本和所述正例搜索条目样本进行短语抽取,得到所述短语对应表。

12.根据权利要求9所述的装置,其特征在于,所述计算模块包括:第二拆分单元,用于基于所述短语对应表,将所述待响应的查询条目以及对应的各搜索条目分别拆分为一个第二短语序列,所述第二短语序列中包括至少一个短语;

向量获取单元,用于根据所述短语向量集合,获取所述第二短语序列中各短语的短语向量;

第二叠加单元,用于分别将每个所述第二短语序列中的所有短语向量进行叠加,得到所述查询条目以及各所述搜索条目的叠加向量;

相似度计算单元,用于分别计算所述查询条目的叠加向量与各所述搜索条目的叠加向量的相似度。

13.根据权利要求12所述的装置,其特征在于,采用最大匹配方式将所述查询条目样本、正例搜索条目样本和负例搜索条目样本分别拆分为一个第一短语序列和/或将所述待响应的查询条目以及对应的各搜索条目分别拆分为一个第二短语序列。

14.根据权利要求8至13任一项所述的装置,其特征在于,所述短语向量为维度不大于

1000的低维度实数向量。