欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018104189985
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种针对论坛文本的主题挖掘方法,其特征在于,所述方法包括以下步骤:步骤1:爬取论坛的数据,利用文本处理手段找出大概率可能是无意义的回复,并做好标记;

步骤2:对论坛文本按照句子切割,之后进行分词,根据词性删除无用的词,去停用词;

步骤3:对现有的文本根据BBS-LDA主题模型使用Gibbs Sampling进行参数估计,最终得到属于每个主题可能性最大的词语。

2.如权利要求1所述的一种针对论坛文本的主题挖掘方法,其特征在于,所述步骤3中,所述BBS-LDA主题模型中,BBS-LDA将同一个帖子中的回复聚集在一起,并把回复切分成句;

对于属于同一个帖子的句子,其主题是从同一个主题分布采样而来,且句子中的每个词所属的主题和句子的主题一致;同时,每个句子都有一定的概率被采样为无意义的句子,每个词都有一定的概率被采样为背景词,所述背景词与句子的主题无关,且这些概率与发表该回复的用户有关。

3.如权利要求2所述的一种针对论坛文本的主题挖掘方法,其特征在于,所述BBS-LDA主题模型的参数估计过程为:(3.1)采样第p个帖子中第s个句子所对应的标记变量rp,s和句子的主题zp,s公式如下:当rp,s=1时,句子主题为k的概率计算如下:

其中,Γ()是gamma函数,Γ(x+1)=xΓ(x), 表示当前正在采样的句子中的词v属于主题k的个数, 是一个向量,一共有二维, 表示用户u发表的有意义的句子的个数,表示用户u发表的无意义的句子的个数,Su表示用户u所发的句子的数目, 是一个向量,一共k维, 表示第p个帖子中主题为k的句子的个数,Qp表示第p个帖子中有意义的句子的个数,一共V维,R(v)表示单词v属于无意义词的个数,R表示无意义的词的个数, 是一个向量,有V维,表示语料库中每个单词属于主题k的个数,下标带有 表示语料库排除当前采样句子的计数;

rp,s=0的概率计算如下:

其中,C表示当前采样句子中无意义词的个数,C(v)表示当前采样句子中的词v属于无意义词的个数;

(3.2)采样句子中的每个词的标记变量t的公式如下:

词x属于背景词的概率计算如下:

其中, 有二维, 表示用户u发表的词中属于背景词的数量。 表示用户u发表的词(v)中不属于背景词的词的数量。有V维,O 表示单词v属于背景词的数量,O表示所有背景词的数量;

词x不属于背景词的概率计算如下:

如果该单词所在的句子对应的标志变量rp,s=1,且zp,s=k如果该单词所在的句子对应的标志变量rp,s=0

(3.3)当模型收敛的时候,各个单词属于每个主题的概率计算如下:

4.如权利要求1~3之一所述的一种针对论坛文本的主题挖掘方法,其特征在于,所述步骤1包括以下步骤:步骤11:通过爬虫爬取论坛中的文本,爬取的内容包括回复的内容,回复的用户,该条回复所对应的帖子的id,主帖也被当成一条回复,回复的用户为楼主;

步骤12:对于字数小于10的回复,使用Jieba分词工具分词,统计高频词,并人工筛选出一份词典,包含词典里面的词的短回复是无意义的回复,并做好标记;

步骤13:对每个用户遍历其所有回复,通过Simhash找出相似度高的回复,如果相似度高的回复计数大于3,这些回复是广告或者无意义的回复,并做好标记。

5.如权利要求1~3之一所述的一种针对论坛文本的主题挖掘方法,其特征在于,所述步骤2包括以下步骤:步骤21:对论坛中的所有回复按照“。”、“!”、“?”和换行进行切割,把长回复分割成一个个句子,句子的作者为原来回复的作者,如果该句子所在的回复在步骤1已经被标记为无意义回复,则该句子也属于无意义的句子;

步骤22:对所有句子使用Jieba分词工具分词,根据词性删除数字、标点、语气词等不包含语义的词性,并删除停用词。