知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种针对论坛文本的主题挖掘方法

￥32200

专利号： 2018104189985

申请人：浙江工业大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2023-12-11

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种针对论坛文本的主题挖掘方法，其特征在于，所述方法包括以下步骤：步骤1：爬取论坛的数据，利用文本处理手段找出大概率可能是无意义的回复，并做好标记；

步骤2：对论坛文本按照句子切割，之后进行分词，根据词性删除无用的词，去停用词；

步骤3：对现有的文本根据BBS-LDA主题模型使用Gibbs Sampling进行参数估计，最终得到属于每个主题可能性最大的词语。

2.如权利要求1所述的一种针对论坛文本的主题挖掘方法，其特征在于，所述步骤3中，所述BBS-LDA主题模型中，BBS-LDA将同一个帖子中的回复聚集在一起，并把回复切分成句；

对于属于同一个帖子的句子，其主题是从同一个主题分布采样而来，且句子中的每个词所属的主题和句子的主题一致；同时，每个句子都有一定的概率被采样为无意义的句子，每个词都有一定的概率被采样为背景词，所述背景词与句子的主题无关，且这些概率与发表该回复的用户有关。

3.如权利要求2所述的一种针对论坛文本的主题挖掘方法，其特征在于，所述BBS-LDA主题模型的参数估计过程为：(3.1)采样第p个帖子中第s个句子所对应的标记变量rp,s和句子的主题zp,s公式如下：当rp,s＝1时，句子主题为k的概率计算如下：

其中，Γ()是gamma函数，Γ(x+1)＝xΓ(x)，表示当前正在采样的句子中的词v属于主题k的个数，是一个向量，一共有二维，表示用户u发表的有意义的句子的个数，表示用户u发表的无意义的句子的个数，Su表示用户u所发的句子的数目，是一个向量，一共k维，表示第p个帖子中主题为k的句子的个数，Qp表示第p个帖子中有意义的句子的个数，一共V维，R(v)表示单词v属于无意义词的个数，R表示无意义的词的个数，是一个向量，有V维，表示语料库中每个单词属于主题k的个数，下标带有表示语料库排除当前采样句子的计数；

rp,s＝0的概率计算如下：

其中，C表示当前采样句子中无意义词的个数，C(v)表示当前采样句子中的词v属于无意义词的个数；

(3.2)采样句子中的每个词的标记变量t的公式如下：

词x属于背景词的概率计算如下：

其中，有二维，表示用户u发表的词中属于背景词的数量。表示用户u发表的词(v)中不属于背景词的词的数量。有V维，O 表示单词v属于背景词的数量，O表示所有背景词的数量；

词x不属于背景词的概率计算如下：

如果该单词所在的句子对应的标志变量rp,s＝1，且zp,s＝k如果该单词所在的句子对应的标志变量rp,s＝0

(3.3)当模型收敛的时候，各个单词属于每个主题的概率计算如下：

4.如权利要求1～3之一所述的一种针对论坛文本的主题挖掘方法，其特征在于，所述步骤1包括以下步骤：步骤11：通过爬虫爬取论坛中的文本，爬取的内容包括回复的内容，回复的用户，该条回复所对应的帖子的id，主帖也被当成一条回复，回复的用户为楼主；

步骤12：对于字数小于10的回复，使用Jieba分词工具分词，统计高频词，并人工筛选出一份词典，包含词典里面的词的短回复是无意义的回复，并做好标记；

步骤13：对每个用户遍历其所有回复，通过Simhash找出相似度高的回复，如果相似度高的回复计数大于3，这些回复是广告或者无意义的回复，并做好标记。

5.如权利要求1～3之一所述的一种针对论坛文本的主题挖掘方法，其特征在于，所述步骤2包括以下步骤：步骤21：对论坛中的所有回复按照“。”、“！”、“？”和换行进行切割，把长回复分割成一个个句子，句子的作者为原来回复的作者，如果该句子所在的回复在步骤1已经被标记为无意义回复，则该句子也属于无意义的句子；

步骤22：对所有句子使用Jieba分词工具分词，根据词性删除数字、标点、语气词等不包含语义的词性，并删除停用词。