知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

文档主题挖掘方法及装置

￥28000

专利号： 2015105667872

申请人：百度在线网络技术(北京)有限公司

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种文档主题挖掘方法，其特征在于，包括以下步骤：

根据预设的主题挖掘数目，采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理，获取每个文档中每个句子隐含的每个主题的后验估计；

根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重；

生成与所述主题挖掘数目对应的主题集合，其中，每个主题集合包括：根据所述句子中每个词在所述每个主题中的隶属权重，筛选出的与所述每个主题相关的词；

所述获取句子中每个词在所述每个主题中的隶属权重之后，还包括：获取预设时间内的搜索查询日志；

根据所述搜索查询日志生成共现关系矩阵，所述共现关系矩阵中的元素R[a，b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次；

根据预先存储的所述共现关系矩阵，更新所述句子中每个词在所述每个主题中的隶属权重，其中，所述共现关系矩阵用于表示搜索领域中词与词之间的相关性。

2.如权利要求1所述的文档主题挖掘方法，其特征在于，所述获取每个文档中每个句子隐含的每个主题的后验估计之后，还包括：根据所述每个主题的后验估计获取每个主题在每个文档中的隶属权重。

3.如权利要求1或2所述的文档主题挖掘方法，其特征在于，还包括：若判断获知输入的文档数量大于预设的阈值，则对所有文档进行切分，并存储到分布式系统架构Hadoop平台中，以便采用映射归纳编程模型对文档中的信息进行并行处理。

4.一种文档主题挖掘装置，其特征在于，包括：

处理模块，用于根据预设的主题挖掘数目，采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理，获取每个文档中每个句子隐含的每个主题的后验估计；

第一获取模块，用于根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重；

第一生成模块，用于生成与所述主题挖掘数目对应的主题集合，其中，每个主题集合包括：根据所述句子中每个词在所述每个主题中的隶属权重，筛选出的与所述每个主题相关的词；

更新模块，用于在获取句子中每个词在所述每个主题中的隶属权重之后，根据预先存储的共现关系矩阵，更新所述句子中每个词在所述每个主题中的隶属权重，其中，所述共现关系矩阵用于表示搜索领域中词与词之间的相关性；

第二获取模块，用于在更新所述句子中每个词在所述每个主题中的隶属权重之前，获取预设时间内的搜索查询日志；

第二生成模块，用于根据所述搜索查询日志生成共现关系矩阵，所述共现关系矩阵中的元素R[a，b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次。

5.如权利要求4所述的文档主题挖掘装置，其特征在于，

所述第一获取模块，还用于在获取每个文档中每个句子隐含的每个主题的后验估计之后，根据所述每个主题的后验估计获取每个主题在每个文档中的隶属权重。

6.如权利要求4或5所述的文档主题挖掘装置，其特征在于，所述处理模块，还用于若判断获知输入的文档数量大于预设的阈值，则对所有文档进行切分，并存储到分布式系统架构Hadoop平台中，以便采用映射归纳编程模型对文档中的信息进行并行处理。

推荐专利

我要求购

我不想找了，帮我找吧

您有专利需要变现?

我要出售

智能匹配需求，快速出售

摘要:

权利要求书:

知嘟嘟

友情链接

关于我们

联系我们