1.一种文档主题挖掘方法,其特征在于,包括以下步骤:
根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;
根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;
生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词;
所述获取句子中每个词在所述每个主题中的隶属权重之后,还包括:获取预设时间内的搜索查询日志;
根据所述搜索查询日志生成共现关系矩阵,所述共现关系矩阵中的元素R[a,b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次;
根据预先存储的所述共现关系矩阵,更新所述句子中每个词在所述每个主题中的隶属权重,其中,所述共现关系矩阵用于表示搜索领域中词与词之间的相关性。
2.如权利要求1所述的文档主题挖掘方法,其特征在于,所述获取每个文档中每个句子隐含的每个主题的后验估计之后,还包括:根据所述每个主题的后验估计获取每个主题在每个文档中的隶属权重。
3.如权利要求1或2所述的文档主题挖掘方法,其特征在于,还包括:若判断获知输入的文档数量大于预设的阈值,则对所有文档进行切分,并存储到分布式系统架构Hadoop平台中,以便采用映射归纳编程模型对文档中的信息进行并行处理。
4.一种文档主题挖掘装置,其特征在于,包括:
处理模块,用于根据预设的主题挖掘数目,采用基于概率潜语义分析模型对所接收的至少一个文档中的信息进行循环迭代处理,获取每个文档中每个句子隐含的每个主题的后验估计;
第一获取模块,用于根据所述每个主题的后验估计获取句子中每个词在所述每个主题中的隶属权重;
第一生成模块,用于生成与所述主题挖掘数目对应的主题集合,其中,每个主题集合包括:根据所述句子中每个词在所述每个主题中的隶属权重,筛选出的与所述每个主题相关的词;
更新模块,用于在获取句子中每个词在所述每个主题中的隶属权重之后,根据预先存储的共现关系矩阵,更新所述句子中每个词在所述每个主题中的隶属权重,其中,所述共现关系矩阵用于表示搜索领域中词与词之间的相关性;
第二获取模块,用于在更新所述句子中每个词在所述每个主题中的隶属权重之前,获取预设时间内的搜索查询日志;
第二生成模块,用于根据所述搜索查询日志生成共现关系矩阵,所述共现关系矩阵中的元素R[a,b]是用户在搜索词a和搜索词b时所点击的相同统一资源定位符URL的共现频次。
5.如权利要求4所述的文档主题挖掘装置,其特征在于,
所述第一获取模块,还用于在获取每个文档中每个句子隐含的每个主题的后验估计之后,根据所述每个主题的后验估计获取每个主题在每个文档中的隶属权重。
6.如权利要求4或5所述的文档主题挖掘装置,其特征在于,所述处理模块,还用于若判断获知输入的文档数量大于预设的阈值,则对所有文档进行切分,并存储到分布式系统架构Hadoop平台中,以便采用映射归纳编程模型对文档中的信息进行并行处理。