知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于主题相关性的推特摘要生成方法

￥35800

专利号： 2021101516309

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.基于主题相关性的推特摘要生成方法，其特征在于，包括以下步骤：

1)将原始数据进行预处理和数据清洗，获得推文集，提取推文的网络互动信息；

2)统计所述推文集中每个词集中出现的名词、动词、形容词词频，然后取词频排名在前

1％的词作为候选主题词，过滤掉词频在其他主题中频率大于k的候选主题词作为最终的主题词集；

3)从上述主题中选出一个与源文本较为贴近的主题作为给定主题，根据主题词集计算推文到这个给定主题的相关性；

4)根据网络互动信息计算公众认同度；

5)将公众认同度与主题相关性进行综合，得到最终的推文显著性，表示为：RankScore＝ω·SST+(1‑ω)·R，SST为一个句子到主题T的相关性度量，R为公众认同度，ω为超参数；

6)采用最大边际相关性算法进行去冗处理，输出摘要。

2.根据权利要求1所述基于主题相关性的推特摘要生成方法，其特征在于：步骤1)所述预处理包括：先对原始数据进行去稀疏化处理，统计所有推文中的名词词频，筛选出前n个话题型名词，作为热点话题词；然后通过先验主题词进行推文的筛选，若所有语料中的言论涉及所述n个话题或者其自带的话题标签涉及所述n个话题，则将此条言论归到其涉及的话题的类别之中，最终得到n个推文集，每个推文集涉及一个话题。

3.根据权利要求2所述基于主题相关性的推特摘要生成方法，其特征在于：步骤1)所述数据清洗包括，去除Hashtag、@、URL和推文末尾的数字，然后将推文中单词数量少于m的推文去除。

4.根据权利要求1或3所述基于主题相关性的推特摘要生成方法，其特征在于：所述提取推文的网络互动信息包括，通过正则表达式提取推文的点赞、转发和评论数量。

5.根据权利要求1所述基于主题相关性的推特摘要生成方法，其特征在于：所述推文到某个主题的相关性通过以下方法计算：T

sim(a,b)＝(a·b)/(|a|·|b|)s(w,ti)＝sim(emb[ti],emb[w])ti∈TwordsF(w,T)＝max|s(w,t1),s(w,t2),...,s(w,tn)|其中sim函数用来计算两个词向量之间的余弦相似度，a，b分别表示两个词向量；sr为句子的长度正则项；L为当前句子中的名词动词形容词的集合，Li指第i个句子，m表示推文集中的最大推文量；s(w,ti)函数计算词w和词ti的相似度；F(w,T)为词w到主题T的隶属度；

Twords为某个主题的主题词集；emb为将词id转为词向量的词嵌入模型；SST为一个句子到主题T的相关性度量，σ为可调的超参数，n表示源文本中的推文数量，L[i]表示L中的第i个词。

6.根据权利要求5所述基于主题相关性的推特摘要生成方法，其特征在于：所述词嵌入模型使用清洗后的数据集通过skip‑gram模型训练得到。

7.根据权利要求1所述基于主题相关性的推特摘要生成方法，其特征在于：所述公众认同度按照以下公式计算：Ri＝α·ci+β·rei+γ·li，其中，ci、rei、li分别为对第i条推文的点赞数、转发数、评论数的离差标准化处理后的值，α，β，γ是可调的超参数且满足α+β+γ＝

1，Ri表示第i条推文的公众认同度。

8.根据权利要求1所述基于主题相关性的推特摘要生成方法，其特征在于：所述最大边际相关性算法进行去冗处理的具体步骤为：

1)初始化集合 B＝{xi|i＝1,2,...n}，A表示用来存放摘要的集合，B表示按推文显著性分数排序后的推文集，xi表示第i条推文，n表示总的推文数量；

2)从集合B中取出第i个元素xi，若xi满足：* *

len(set(xi)∩set(s))＜k s∈A*

则将xi从B集合移动到A集合，否则将xi从B集合中删除；len函数用来计算xi和s的集合的交集的词的个数，set函数用于集合元素去重；set(xi)表示对xi中的词进行去重后的词集，k表示词集的阈值；

3)重复步骤2直到或者A集合推文数量达到预期摘要长度。