欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2014107213070
申请人: 百度在线网络技术(北京)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种语义相似度计算方法,其特征在于,所述方法包括:

获取第一文本串和第二文本串;

分别对所述第一文本串和所述第二文本串进行分词,生成分词结果;

根据所述分词结果分别将所述第一文本串和所述第二文本串分得的分词生成预定多个语义层;

将所述第一文本串的每个语义层都分别与所述第二文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值;

根据计算的N×N个依存相似度值计算所述第一文本串和所述第二文本串的语义相似度值。

2.根据权利要求1所述的方法,其特征在于,所述根据所述分词结果分别将所述第一文本串和所述第二文本串分得的分词生成预定多个语义层的处理包括:对所述第一文本串和所述第二文本串中的任一文本串,进行如下分层处理:由所述文本串的分词结果中的每单个分词作为一个元组生成包括多个元组的第一语义层;

由所述文本串的分词结果中相邻的每i个分词作为一个元组生成包括多个元组的第i语义层,其中,i≥2且i为正整数。

3.根据权利要求2所述的方法,其特征在于,所述将所述第一文本串的每个语义层都分别与所述第二文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值的处理包括:对于所述第一文本串的第i语义层和所述第二文本串的第j语义层,根据元组sik和元组wjl之间的匹配概率以及元组sik和元组wjl之间的距离计算所述第i语义层和所述第j语义层的依存相似度。

4.根据权利要求3所述的方法,其特征在于,通过以下公式执行所述对于所述第一文本串的第i语义层和所述第二文本串的第j语义层,根据元组sik和元组wjl之间的匹配概率以及元组sik和元组wjl之间的距离计算所述第i语义层和所述第j语义层的依存相似度的处理:其中,si1,si2,…sim为所述第一文本串的第i语义层的m个元组,wj1,wj2,…wjn为所述第二文本串的第个语义层的n个元组,p(sik wjl)为元组之间相似度的匹配概率表,alpha是预定的常量,1/|k-l+1|为两个元组间距离的惩罚参数。

5.根据权利要求4所述的方法,其特征在于,所述根据计算的N×N个依存相似度值计算所述第一文本串和所述第二文本串的语义相似度值的处理包括:对所述N×N个依存相似度值进行加权融合,得到所述第一文本串和所述第二文本串的语义相似度值。

6.一种搜索结果处理方法,其特征在于,所述方法包括:

接收用户的搜索词;

根据所述搜索词获取多个搜索结果条目;

根据如权利要求1~5中任一项所述的方法分别计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值;

根据所述语义相似度值对所述搜索结果条目进行排序;

发送经排序的搜索结果条目。

7.一种语义相似度计算装置,其特征在于,所述装置包括:

文本串获取模块,用于获取第一文本串和第二文本串;

文本串分词模块,用于分别对所述第一文本串和所述第二文本串进行分词,生成分词结果;

语义层生成模块,用于根据所述分词结果分别将所述第一文本串和所述第二文本串分得的分词生成预定多个语义层;

依存相似度值计算模块,用于将所述第一文本串的每个语义层都分别与所述第二文本串的所有语义层进行依存相似度计算得到N×N个依存相似度值;

语义相似度值计算模块,用于根据计算的N×N个依存相似度值计算所述第一文本串和所述第二文本串的语义相似度值。

8.根据权利要求7所述的装置,其特征在于,所述语义层生成模块用于对所述第一文本串和所述第二文本串中的任一文本串,由所述文本串的分词结果中的每单个分词作为一个元组生成包括多个元组的第一语义层;由所述文本串的分词结果中相邻的每i个分词作为一个元组生成包括多个元组的第i语义层,其中,i≥2且i为正整数。

9.根据权利要求8所述的装置,其特征在于,对于所述第一文本串的第i语义层和所述第二文本串的第j语义层,根据元组sik和元组wjl之间的匹配概率以及元组sik和元组wjl之间的距离计算所述第i语义层和所述第j语义层的依存相似度。

10.根据权利要求9所述的装置,其特征在于,所述依存相似度值计算模块用于通过以下公式执行所述对于所述第一文本串的第i语义层和所述第二文本串的第j语义层,根据元组sik和元组wjl之间的匹配概率以及元组sik和元组wjl之间的距离计算所述第i语义层和所述第j语义层的依存相似度的处理:其中,si1,si2,…sim为所述第一文本串的第i语义层的m个元组,wj1,wj2,…wjn为所述第二文本串的第个语义层的n个元组,p(sik wjl)为元组之间相似度的匹配概率表,alpha是预定的常量,1/|k-l+1|为两个元组间距离的惩罚参数。

11.根据权利要求10所述的装置,其特征在于,所述语义相似度值计算模块用于对所述N×N个依存相似度值进行加权融合,得到所述第一文本串和所述第二文本串的语义相似度值。

12.一种搜索结果处理装置,其特征在于,所述装置包括:

搜索结果条目获取单元,用于根据搜索词获取多个搜索结果条目;

语义相似度计算单元,用于通过如权利要求7~11中任一项所述的语义相似度计算装置分别计算所述搜索词与所述多个搜索结果条目的内容标题的语义相似度值;

搜索结果条目排序单元,用于根据所述语义相似度计算单元计算的语义相似度值对所述搜索结果条目进行排序。

13.一种搜索引擎,其特征在于,所述搜索引擎包括:

搜索词接收装置,用于接收搜索词;

如权利要求12所述的搜索结果处理装置,用于根据所述搜索词产生经过排序的搜索结果条目;

搜索结果发送装置,用于发送经排序的搜索结果条目。