欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022105651836
申请人: 张艳
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2024-11-12
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.微博大数据热点话题多维度智能提取系统,其特征在于,利用微博传播及互动特点,构建基于微博海量数据的热点话题提取模型,基于短文本扩充与隐藏语义计算方法的文本建模,并基于协同近似集合和热度打分对微博热点话题进行自动提取,构建对应的自动提取系统;

S1,联合短文本扩充与隐藏语义计算的微博文本建模:结合微博特性提出短文本扩充方法,重组讨论图谱树扩充了微博文本,并通过隐藏语义计算方法进行微博文本建模,减弱字词间的关联性,获得字词间的隐含语义结构,对词和文本进行表述,在不丢失语义的情况下,降低文本向量的维度;

S2,基于协同近似集合和热度打分的微博热点话题提取,包括:改进的协同近似集合算法、联合时间数据的文本相似度计算、微博话题热度影响因素评分、微博话题热度值的计算;融合层次近似集合和K均衡算法并进行改进,并将时间数据特性纳入到文本相似度计算中;结合微博文本的特性引入话题热度值计算的影响因素和实现方法,并生成微博热点话题打分列表;

S3,构建微博热点话题多维度智能提取系统,对文本模型化表示方法所构建的基于短文本扩充方法、隐藏语义计算方法的文本建模,综合协同近似集合和热度打分的热点提取方法提升提取精准性、时效性,减少话题信息遗失,实现对微博热点话题的自动提取和打分展示。

2.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,基于叙词的微博评论处理:(1)删除长度不足的回复评论,此处设定一定的临界值长度Length,在微博数据提取中去掉内容短于Length的回复评论;

(2)对于微博的内容进行数据的清洗和预处理,包括剔除停用词、表情符号、用户账户、网址链接,对微博内容进行中文分词处理;

(3)删除与初始微博内容不相关的评论,将回复评论的微博集合中,抽取叙词与初始微博相近的评论,对于本条规则的执行,具体过程如下:过程1:将原微博的叙词簇作为初始簇;

过程2:从原微博的评论中按时间顺序读取一条;

过程3:将抽取的评论中的词与初始簇计算空间距离;

过程4:把评论与初始簇计算归一化的空间距离值相加求和;如果结果小于设定的临界值,则添加至有用评论列表,如果不是,则剔除;

再次执行过程3和过程4,直至所有回复评论处理完成,得到原微博对应的有效的评论列表;

在计算评论与初始微博的空间距离时,涉及文本近似度的计算,计算词a、b的近似概率:P(a|b)是在b出现的情况下,a出现的概率,它于a与b同时出现的概率除以b出现的概率,计算词与叙词簇的相关性,令词w与簇C之间的距离取max{P(ci|ω)ci∈C}的倒数,具体方法如下:如果ci在簇C中,则ci在包含w的文本中出现的概率大,词w至簇C的空间距离短,将词w加进簇C;否则,词w离簇C的空间距离大,则词w不加入簇C。

3.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,重组讨论图谱树扩充微博文本:在微博的讨论图谱树里,对微博内容进行重组拓展形成微博的长文本,包括两种情形:一是连续转发的微博,转发博文采用来标记;二是在回复中评论对话,交谈时会指向标签@微博博主;

微博文本信息提取结合微博的呈现方式,将初始微博下的所有连续转发、评论回复重组,作为该微博内容的拓展,以此来进行话题的提取和计算,在重组之前,将已收集的数据集Set按时间先后进行打分得到SortedSet,然后将其作为算法的输入,通过算法处理,将其转化为多个文本构成的集合,且已重组重复信息;

(1)重组连续转发微博

使用页面上的标记来筛选Set信息,如果微博是初始微博信息或包含的转发标记时,此类微博信息加入到SortedSet中,对于原创微博的HashValue当作textMap的键,将重组后的TextSet加到对应位置上,按照算法重组完成后,textMap里的值都是重组重复信息的文本集;

理解最终得到的文本集包含的范围,即没有被转发过的初始微博,和连续转发的重复微博内容,处理完成后标记为yeD,作为初始输入的集合,并进行下一步的处理;

(2)对话与评论的多微博重组

通过重组连续转发微博算法处理后,剩下的文本集yeD中,是带有指标标签@的微博信息,将对话与评论的多微博重组,构建各自的对话树结构,核心是微博发表的时间次序以及指向标签@对应的微博信息传递关系;

先对上一步构成的yeD中微博信息依据其发布时间先后进行次序排列,然后查询整个yeD,对于不包含@指向符合的微博,将其作为Root结点构建一颗对话树,并把新建的树加入到discussTreeSet中;对于转发和评论的微博,则搜寻discussTreeSet,直至:①某条该树结点中微博的发布人是该微博所指向的人;②符合条件①的所有结点中两条微博发布时间差最小,然后将当前微博信息作为其子结点信息加入原对话树中;

通过对话与评论的多微博重组算法处理后,yeD中的微博信息都被重组至对话树中,剔除只有Root结点或者是树的高度非常低的对话树,即评论或者转发非常少的微博信息,将同一对话树结构的微博信息根据发布时间的先后次序重组为一个文本,得到有意义的长文本信息。

4.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,基于隐藏语义计算的微博文本建模:通过大量的文本计算,构造文本‑字词矩阵,然后提取字词和文本的隐藏语义结构,具体步骤如下:令m表示文本中不同词的数量,n代表文本的数量,词与文本共生矩阵用Amxn表示,则aij代表第j个文本中第i个词的因子,文本和词相关性不大,Amxn此时是密度稀疏的矩阵;

对Amxn进行分解后,得到Amx的近似矩阵Ak,此处K<

都与一个词对应,列向量 都与一个文本相对应;

T T T T

(2)假设存在矩阵A的分解:A=U∑V ,U和V正交,∑是对角矩阵,得到:AAA=U∑∑U和T T T T T T TAA=V∑∑V,∑∑和∑∑对角,U和V分别覆盖AA和AA的特征向量;

(3)令k为最大奇异值,在U、V及其对应的奇异向量中,k逼近A的误差最小,将这个词和对应的文本向量视为一个语义空间,向量 有k个条目,将向量 映射到一个更低的空间,得到近似矩阵 实现文本向量的降维;

对收集到微博文本信息,采用隐藏语义计算方法建模如下:

第一步:构建字词与文本的共生矩阵 假设有n个微博文本,其中包含m

个不同的字词,组成一个矩阵Amxn,aij由TF‑IDF计算得到,方法如下:tfij代表字词在文本j中出现的频率,N代表文本总量,ni代表含有词i的文本数量,微博文本简短,一个词只在很少的博文中出现,Amxn是稀疏矩阵,且是高维度;

(2)得到字词与文本的共生矩阵Amxn后,在不损失原文本语义关系的基础上,依据k<

5.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,改进的协同近似集合算法:先通过层次近似集合算法对数据进行初步近似集合,找出初始的近似集合中心C以及初始的近似集合数量K,将近似集合中心和近似集合数量作为K均衡算法的初始输入因子,按照K均衡算法的步骤完成整个近似集合过程,其中,在对文本相似度的计算上,结合时间数据的文本相似度计算方法;

包括两个步骤,首先通过层次近似集合找出初始近似集合中心C和初始近似集合簇数K;然后将结果作为K均衡算法的输入因子,按照K均衡算法的流程进行近似集合;

改进的协同近似集合算法的具体过程如下:

步骤一:通过层次近似集合算法找出初始近似集合中心C和初始近似集合簇数K:(1)文本建模后得拭到矩阵 通过向量

来代表这n个数据点待近似集合;

(2)求n个数据点的相互距离,将距离最近的数据点两两实现部分地近似集合;其中,在对文本相似度的计算上,结合时间数据的文本相似度计算方法;

(3)通过随机抽样来剔除部分孤立点:在近似集合接近完成时剔除小于设定临界值的簇以及在近似集合过程中类簇聚集速度低于设定的临界值的簇;

(4)对于上步中得到两两数据之间求中心点,即得到新的簇中心,采用Fi=(ni,mi),(i=1,2,Λ,k)来代表;

(5)迭代执行(2)、(3)、(4)步,并计算各层类簇的目标函数值Q(c),选择使Q(c)值最小的层,该值越小则意味着近似集合数K的大小越准确;

(6)计算Fi(i=1,2,Λ,k)中样本数据的均值,作为后续K均衡算法的初始中心Ci(i=1,

2,Λ,k);

步骤二:将初始近似集合中心C和初始近似集合簇数K作为K均衡算法的因子,并实现近似集合:(7)对矩阵A中的所有数据进行判断,是否在步骤一已经进行过近似集合处理,若是则不再进行处理,若尚未处理过,则对该数据点,求所有的簇中心的距离,并按照最小距离原则将其划分至对应的簇中去;

(8)重新对簇的数量、均衡、近似集合特征进行求值,并更新;

(9)迭代执行(7)、(8)步,直到每个类簇不再更新为止,即分类结果达到稳定。

6.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,联合时间数据的文本相似度计算:将时间因子加入文本相似度的计算中,具体方法如下:其中Sl、S2是隐藏语义计算方法的文本向量表示S1{s1_1,s1_2,…,s1_n}、S2={s2_1,s2_2,…,s2_n},T(S1)和T(S2)分别代表语义文本的微博发表的时间(精确到秒),如果二者相隔越远,则近似度相对越低。

7.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,微博话题热度影响因素评分:对微博话题热度的衡量,基于以下要素评分:评分1,用户的影响力:微博用户影响力通过其粉丝数量和是否是某一领域的专家来判断;

评分2,评论数:博文如果是很多人都会关注的话题,则会吸引很多人的参与评论;

评分3,转发数;

评分4,时间特性,博文的时间特性考虑在对微博话题热度的评价中。

8.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,微博话题热度值的计算:话题热度值的计算考虑用户的影响力、博文评论数、转发数、发表时间几个要素,构建如下的热度值计算方法:其中,λ、μ与η为权重因子,且λ+μ+η=1,Hauthor(i)代表用户的影响力大小,将其定义如下:Hauthor(i)=ζ×Fllowers                 式7式中,Fllowers代表对该用户的关注粉丝量,ζ是权威因子,根据用户是否为相关领域的权威人士来确定值;R(i)代表博文i的转发量;C(i)代表原博文i下的评论条数;Hauthor(j)、c(j)分别指原微博i的第j条转发微博的影响力和评论次数;

根据以上方法算出单条微博信息的热度值后,将时间要素纳入话题的热度计算,即当某条微博信息发出后,对该话题热度的影响伴随着时间的延长,越来越低,本申请基于牛顿冷却定律对于微博的热度按照此规则进行冷却,冷却方法如下:f′=‑α(f(t)‑D)                    式8f(t)是当前对象温度以时间t为变量的函数,其导数为f’,D代表环境温度,f(t)‑D代表当前对象温度与环境温度间的差异度,参数α(α>0),‑α代表降温,视为冷却快慢程度的参数值,对该式求积分,则将其转化为:式中f0代表初始温度,t‑t0为时间间隔,得到微博话题热度的最终式如下:式中,H(topicSet,t)代表话题在t时刻的热度,t是计算时采用的当前时间,n代表该话题下的博文数目,ti为博文的发表时间,Hi是博文i的初始热度。

9.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,构建微博热点话题多维度智能提取系统整体架构设计:从数据收集到文本分词处理,根据词性进行过滤、对于评论文本进行筛选,重组评论信息得到拓展的微博文本;然后根据拓展的文本生成VSM,对字词文本进行SVD分解,对语义计算后的微博文本进行近似集合,并计算话题热度并进行对应的页面展示;

系统整体框架包括:数据收集、文本预处理、隐藏语义计算、近似集合及热度计算,以及系统展示模块,将收集到的微博文本信息,通过这一系列的处理,最终得到相关的近似集合话题并对其进行热度的打分。

10.根据权利要求1所述微博大数据热点话题多维度智能提取系统,其特征在于,系统各模块设计:

1.数据收集模块

利用平台的数据接口获取初始数据,提取微博的内容包括初始微博、评论和转发信息、用户信息,使用到的接口包括微博接口,评论接口以及用户接口;

调用API后,数据将以JSON格式返回,在得到对应的数据后,对数据进行处理,并存入本申请的本地数据库中,待后续对其计算;

2.文本预处理模块

对所获取的微博内容及评论进行清洗、过滤和重组,包括文本的选取和清理、文本分词、去掉停用词、词性过滤、评论文本筛选、拓展短文本;

3.隐藏语义计算模块

将文本的分词和频次计量中的热度值较高的文本转化为词与文本矩阵,词频特征矩阵采用文本向量模型来将其模型化,对词和文本矩阵进行分解,将字词间的隐含语义结构提取出来,使得文本向量的维度得以降低;

4.近似集合及话题提取模块

采用本申请改进的协同近似集合算法来实现近似集合,并将时间数据特性纳入到文本相似度计算中,通过层次近似集合算法进行初步的近似集合,找出初始的近似集合中心C以及近似集合数量K,作为K均衡算法的初始因子,按照K均衡算法的步骤完成整个近似集合过程;

5.系统展示

采用B/S架构构建了系统的原型,该系统原型分为数据收集、数据处理、话题提取和热点计算,以及相关系统界面。