欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2011104002483
申请人: 北京百度网讯科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-04-18
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种文本相关主题的推荐方法,其特征在于,包括以下步骤:S1、获取文本内容,对文本内容进行分词得到词项Term,计算各个Term的权重,根据Term的权重确定所述文本内容的中心词和辅助词;

S2、利用所述中心词到已有的主题集合中进行匹配,将包含所述中心词的主题作为候选主题,构成候选主题集合;

S3、根据候选主题对应的资源数和候选主题与所述辅助词的相关性,计算各候选主题的综合权重;

S4、将综合权重满足预设要求的候选主题作为推荐的相关主题。

2.根据权利要求1所述的方法,其特征在于,所述步骤S1具体包括:获取文本内容;

对获取的文本内容进行分词处理,得到Term;

基于Term的倒文档率IDF计算各个Term的权重;

将权重满足中心词预设要求的Term确定为所述文本内容的中心词;将权重满足辅助词预设要求的Term确定为辅助词。

3.根据权利要求2所述的方法,其特征在于,在所述基于Term的倒文档率IDF计算各个Term的权重后,还将各个Term的权重依据所述文本内容的长度进行调权处理。

4.根据权利要求2所述的方法,其特征在于,所述中心词预设要求包括:Term的权重排在前N1个;或者,

Term的权重大于预设第一阈值Q1;

或者,Term的权重大于预设第三阈值Q3且排在前N1个;

对应地,辅助词预设要求包括:

Term的权重排在前N1+1至前N2个;或者,Term的权重在预设第一阈值Q1和预设第二阈值Q2之间;

或者,Term的权重大于预设第三阈值Q3且排在前N1+1至前N2个;

其中,N1、N2为预设正整数,且N1<N2,0<Q2<Q1≤1,0<Q3≤1。

5.根据权利要求1所述的方法,其特征在于,所述已有的主题集合中采用中心词和标记词的组合表示各个主题,该主题集合的建立包括以下步骤:A1、从用户搜索日志中获取搜索关键词,将所述搜索关键词分成一个或多个词条,并记录各词条在搜索关键词中出现的位置;

A2、将步骤A1确定的词条中指向某一实体的词条构成候选中心词集合,将候选中心词集合中在所述搜索关键词的首部没有出现的词条过滤掉,得到中心词集合;

A3、将步骤A1确定的词条中描述实体特性的词条构成候选标记词集合,将候选标记词集合中在所述搜索关键词的尾部没有出现的词条过滤掉,得到标记词集合;

A4、利用所述中心词集合和标记词集合中的词条得到中心词和标记词的组合,将在所述搜索关键词中没有出现的组合过滤掉,得到主题集合。

6.根据权利要求1所述的方法,其特征在于,所述步骤S3包括以下步骤:根据候选主题集合中各个候选主题对应的资源数,计算候选主题的第一权重W1;

根据候选主题与辅助词的相关性,计算候选主题的第二权重W2;

对计算得到的候选主题的第一权重W1和第二权重W2进行线性加权,得到候选主题的综合权重W。

7.根据权利要求6所述的方法,其特征在于,所述候选主题的第一权重W1为:所述候选主题对应的资源数与候选主题集合中各候选主题对应的最大的资源数的比值。

8.根据权利要求6所述的方法,其特征在于,所述候选主题的第二权重W2为:Ws与Ws_max的比值,其中Ws为所述候选主题的标记词与各所述辅助词之间的相关性之和,Ws_max为针对候选主题集合中各候选主题计算出的Ws的最大值。

9.根据权利要求1所述的方法,其特征在于,所述满足预设要求包括:候选主题的综合权重W排在前N3个,N3为预设正整数;

或者,候选主题的综合权重W大于预设主题权重阈值Q4,0<Q4≤1。

10.根据权利要求1所述的方法,其特征在于,在所述步骤S4中还包括依据综合权重对各候选主题进行排序,且在排序时进行以下处理:将所包含标记词在所述文本内容中出现的候选主题的排序提前;

或者,将与按照综合权重排在前面的候选主题存在字面重复的候选主题的综合权重降权。

11.一种文本相关主题的推荐装置,其特征在于,包括:中心词获取模块,用于获取文本内容,对文本内容进行分词得到词项Term,计算各个Term的权重,根据Term的权重确定所述文本内容的中心词和辅助词;

候选主题获取模块,用于利用中心词获取模块获取的中心词到已有的主题集合中进行匹配,将包含所述中心词的主题作为候选主题,构成候选主题集合;

候选主题权重计算模块,用于根据候选主题对应的资源数和候选主题与所述辅助词的相关性,计算候选主题集合中各候选主题的综合权重;

相关主题确定模块,用于根据候选主题权重计算模块计算得到的各候选主题的综合权重,将综合权重满足预设要求的候选主题作为推荐的相关主题。

12.根据权利要求11所述的装置,其特征在于,所述中心词获取模块包括:文本获取单元,用于获取文本内容;

分词单元,用于对获取的文本内容进行分词处理,得到Term;

赋值单元,基于Term的倒文档率IDF计算各个Term的权重;

选词单元,用于将权重满足中心词预设要求的Term确定为所述文本内容的中心词,将权重满足辅助词预设要求的Term确定为辅助词。

13.根据权利要求12所述的装置,其特征在于,所述中心词获取模块还包括调权单元,用于将所述赋值单元得到的各个Term的权重依据所述文本获取单元获取的文本内容的长度进行调权处理,将调权处理后的各个Term的权重提供给所述选词单元。

14.根据权利要求12所述的装置,其特征在于,所述中心词预设要求包括:Term的权重排在前N1个;或者,

Term的权重大于预设第一阈值Q1;

或者,Term的权重大于预设第三阈值Q3且排在前N1个;

对应地,辅助词预设要求包括:

Term的权重排在前N1+1至前N2个;或者,Term的权重在预设第一阈值Q1和预设第二阈值Q2之间;

或者,Term的权重大于预设第三阈值Q3且排在前N1+1至前N2个;

其中,N1、N2为预设正整数,且N1<N2,0<Q2<Q1≤1,0<Q3≤1。

15.根据权利要求11所述的装置,其特征在于,所述已有的主题集合中采用中心词和标记词的组合表示各个主题,该装置还包括:主题集合的建立模块,所述主题集合的建立模块具体包括:关键词获取单元,用于从用户搜索日志中获取搜索关键词,将所述搜索关键词分成一个或多个词条,并记录各该些词条在搜索关键词中出现的位置;

中心词集合单元,用于将所述关键词获取单元确定的词条中指向某一实体的词条构成候选中心词集合,将候选中心词集合中在搜索关键词的首部没有出现的词条过滤掉,得到中心词集合;

标记词集合单元,用于将所述关键词获取单元确定的词条中描述实体特性的词条构成候选标记词集合,将候选标记词集合中在搜索关键词的尾部没有出现的词条过滤掉,得到标记词集合;

主题集合单元,用于利用所述中心词集合和标记词集合中的词条得到中心词和标记词的组合,将在搜索关键词中没有出现的组合过滤掉,得到主题集合。

16.根据权利要求11所述的装置,其特征在于,所述候选主题权重计算模块,包括:第一权重计算单元,用于根据候选主题集合中各个候选主题对应的资源数,计算候选主题的第一权重W1;

第二权重计算单元,用于根据候选主题与辅助词的相关性,计算候选主题的第二权重W2;

加权单元,用于对所述第一权重计算单元和第二权重计算单元计算得到的候选主题的第一权重W1和第二权重W2进行线性加权,得到候选主题的综合权重W。

17.根据权利要求16所述的装置,其特征在于,所述候选主题的第一权重W1为:所述候选主题对应的资源数与候选主题集合中各候选主题对应的最大的资源数的比值。

18.根据权利要求16所述的装置,其特征在于,所述候选主题的第二权重W2为:Ws与Ws_max的比值,其中Ws为所述候选主题的标记词与各所述辅助词之间的相关性之和,Ws_max为针对候选主题集合中各候选主题计算出的Ws的最大值。

19.根据权利要求11所述的装置,其特征在于,所述满足预设要求包括:候选主题的综合权重W排在前N3个,N3为预设正整数;

或者,候选主题的综合权重W大于预设主题权重阈值Q4,0<Q4≤1。

20.根据权利要求11所述的装置,其特征在于,所述相关主题确定模块依据综合权重对各候选主题进行排序,且在排序时进行以下处理:将所包含标记词在所述文本内容中出现的候选主题的排序提前;

或者,将与按照综合权重排在前面的候选主题存在字面重复的候选主题的综合权重降权。