1. 一种基于Hadoop的微博热点话题提取方法,其特征在于该方法包括如下步骤:步骤一、组建Hadoop集群平台;
组建局域网,对局域网中的每个计算机安装Hadoop软件,通过对Hadoop配置文件中属性参数dfs.namenode和dfs.datanode的设置,将其中一台计算机配置成Hadoop名字节点,而其它计算机配置成数据节点;并通过对Hadoop配置文件中属性参数mapred.jobtracker和mapred.tasktracker的设置,将其中一台计算机配置成Hadoop调度节点,而其它计算机配置成任务节点,组建开源的Hadoop平台;
步骤二、微博数据采集;
利用微博平台的开放API接口采集微博信息;其中,所述微博信息包括:微博内容、发微博的时间、微博的作者和微博的来源信息,所述的微博来源是指微博平台来源;将采集当天的微博使用Hadoop分布式文件命令dfs-put将数据集上传至Hadoop平台的各个节点上;
步骤三、数据预处理;
数据预处理就是对采集的微博内容进行分词处理,过滤掉一些噪音信息,并抽取出热门关键词组,然后对微博信息在HDFS上建立索引;所述噪音信息就是对微博热点话题提取无用的信息,所述HDFS就是Hadoop平台上的分布式文件系统;
步骤四、话题特征词组提取;
把每个热门关键词都看成一个潜在的热门话题,根据特征值计算的方法提取出每个潜在热门话题的特征词组;
步骤五、相似话题的合并;
循环遍历潜在的热门话题,合并相似度超过阈值的话题;
步骤六、话题展示;
以特征词组中最热门关键词的爆发得分作为话题的热度值,将热点话题按热度值从高到低次序排序输出并显示。
2.根据权利要求1所述的方法,其特征在于:步骤一组建Hadoop集群平台方法的具体步骤如下:(1) 为局域网中每一个节点安装ubuntu操作系统;
(2) 为局域网中每一个节点安装Hadoop插件;
(3) 为局域网中每一个节点安装JDK插件;
(4) 配置局域网中每个节点上的ubuntu系统的etc文件,使ubuntu系统关联该节点上的Hadoop文件和该节点上的jdk文件;
(5) 配置局域网中每个节点上Hadoop插件中的core-site.xml文件、hdfs-site.xml文件和mapred-site.xml文件;设置属性dfs.namenode和dfs.datanode,使局域网中存在一个名字节点和多个数据节点;同时设置属性mapred,jobtracker和mapred.tasktracker,使集群中存在一个任务调度节点和多个任务执行节点。
3.根据权利要求1所述的方法,其特征在于:步骤三预处理具体是:
采用中国科学院计算技术研究所的ICTCLAS分词系统对采集的微博信息内容进行分词并标注出词性;过滤掉包含“#”(表示一个讨论的话题)、 “http://”(表示已有的新闻等其他消息)、“@用户”(表示对话式的互动)的噪音信息,以及在特定时间段频繁出现的词;然后利用如下公式计算每一个名词和动词在一小时内的爆发程度 :这里的F(w,tn)表示词组w在tn时间段内在微博信息中出现的次数,而F(w,tn-1)表示词组w在前一天tn时间段内在微博信息中出现的次数;这里的时间窗口通常设置为一个小时;
将爆发程度值从高到低次序的前200个词作为候选热门关键词;将采集得到的当天微博信息,利用Apache软件基金会支持和提供的用于全文检索和搜寻的开源程式库Lucene在Hadoop平台上的HDFS上建立索引,以便下一步的处理。
4.根据权利要求1所述的方法,其特征在于:步骤四话题特征词组提取具体是:以每一个关键词为搜索条件在HDFS上已经建好的索引中搜索出相关微博信息,将搜索出的微博信息看作该关键词的相关文档;计算该相关文档的平均相似度,当平均相似度低于预设的阈值时就认为该文档里信息不是噪音信息而是一个潜在的话题,然后利用基于特征提取方法从所述相关文档中提取该话题的特征词汇集,并计算每个特征词汇的权值;
所述相关文档的平均相似度是指文档中所有两两相邻微博之间的相似度总和除以相关文档中的微博总数得到的值;所述的微博相似度是指两条微博中相同词语的个数除以微博中总的词语个数得到的值;这里所述话题特征词汇集提取及特征词汇权值计算是指以下步骤:步骤A:对词频进行归一化计算;将关键词对应的相关文档作为一个语料库,词条n 的归一化词频为tfn=N(n)/N;这里N(n)表示词条n在此语料库中出现的次数,N表示此语料库中所有词条出现次数的总和;
步骤B:逆向文档频率计算;预先准备人工挑选出的典型话题文档作为语料库,典型话题语料库中的每一篇文档对应一个人工挑选出的典型话题,同一文档都是由人工挑选的同一典型话题的微博组成的,每条微博占一行;语料库中词条n 的逆向文档频率为idfn=log[|N|/(1+NL(n))];这里NL(n) 是指典型话题语料库中包含词条n的文档个数;
|N|是典型话题语料库中文档个数;
步骤C:计算词汇权值,提取话题特征词汇集;词条TFIDF 值=词频×逆向文档频率,即tfidfn=tfn*idfn;所述的提取话题特征词汇集就是根据每个话题的词汇权值从大到小选取的话题特征词汇组成的集合,每个话题至少选取5个话题特征词汇。
5.根据权利要求1所述的方法,其特征在于:步骤五相似话题的合并具体是:
循环计算两话题相似度,当相似度超过预设阈值时合并此两个话题,直到任意两话题的相似度都小于预设阈值为止;所述的两个话题的相似度是指来那个话题对应的两个特征词汇集中相同的词汇数除以两个话题的特征词汇总个数;所述的两话题合并是指将第二个话题中的特征词汇补充到第一个话题的特征词汇集中,然后删掉第二个话题。
6.根据权利要求1所述的方法,其特征在于:步骤六话题展示具体是:
以特征词组中最热门关键词的爆发得分作为话题的热度值,将热点话题按热度值从高到低次序排序输出并显示。