知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种地铁乘客需求动态获取方法及其获取系统

￥32200

专利号： 201910561357X

申请人：西南交通大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种地铁乘客需求动态获取方法，其特征在于，包括以下步骤：步骤1：构建需求词库，根据需求词库从社交网络平台获取用户发文数据；

步骤2：对步骤1获取的数据进行预处理；

步骤3：采用支撑向量机分类器过滤与地铁乘客需求不相关的文本，具体为：S11：对步骤2预处理后的文本随机抽样，生成训练样本和测试样本；

S12：根据训练样本确定相关文本和不相关文本并分别确定其特征词，计算训练样本信息熵和每个词的信息增益值，将增益值大于设定阈值的词作为特征词；

训练样本信息熵IG(X)计算过程如下：式中：X为训练样本集，N1和N2分别表示相关文本数量和不相关文本数量；

每个词的信息增益值IG(word)计算过程如下：式中：word为训练样本集中的词语，A、B分别为每个词在相关文本和不相关文本中出现的频率，C、D分别为每个词在相关文本和不相关文本不出现的频率；

S13：计算各文本中特征词的特征值，将文本表示为特征值向量；

S14：根据训练样本构建支撑向量机分类器，用测试样本完善分类器；

S15：采用步骤S14得到的支撑向量分类器对数据进行分类，分为需求相关文本和不相关文本，去除不相关文本；

步骤4：将步骤3过滤后的文本通过轮廓系数修正的K均值聚类方法进行相关性聚类；

步骤5：对步骤4中的每一聚类簇，给定标签作为需求项，并计算需求项的重要度；

步骤6：将步骤5中得到的需求项首先判断其是否已存在于需求词库，若是则退出，若否则判断其重要度和相对传播持久度是否同时满足预设阈值，若满足则发现了新需求项，并将其加入到需求词库，若不满足则退出；

所述相对传播持久度计算过程如下：S31：传播持久度jk如下：式中：r′k0、r′k1、r′k2为连续三个时间段内获取的传播热度，其中r′k0为本次获取的传播热度；

S32：相对传播持久度Jk为：式中：S为总的文本集合数，ji为第i项需求的传播持久度，i为需求项标号。

2.根据权利要求1所述的一种地铁乘客需求动态获取方法，其特征在于，所述步骤1获取数据过程如下：

将需求词库中的词语作为关键词在社交网络平台中检索，得到用户发文；通过网络爬虫获取文本数据。

3.根据权利要求1所述的一种地铁乘客需求动态获取方法，其特征在于，所述步骤4中轮廓系数修正的K均值聚类方法为首先通过K均值聚类，然后通过轮廓系数确定最优聚类簇数k；

K均值聚类过程如下：

确定某聚类簇中各点到聚类中心的距离平方和dist(Sk)：式中：Sk为各簇的文本集合，xi为Sk簇中文本的特征值向量，ns为Sk簇中文本的数量，uk为Sk簇的聚类中心，i为簇中文本标号；

其中uk如下：

聚类域中所有样本到聚类中心的距离的平方和dist(S)为：式中：k为聚类的簇数，S为总的文本集合数，j为文本集合中各聚类簇标号；

轮廓系数L(xi)如下：

式中：a(xi)为文本xi与其同一簇内其它所有文本距离的平均值，b(xi)为文本xi与xi外的一个簇中所有文本的平均距离；

平均轮廓系数L(x)k为：

式中：N为整个文本集的文本数量；

当平均轮廓系数最大时，对应簇数k为最佳聚类簇数。

4.根据权利要求1所述的一种地铁乘客需求动态获取方法，其特征在于，所述步骤5重要度计算过程如下：

S21：传播热度rk如下：

式中：ns为每簇中文本数量，Zi为每簇中第i条文本的转发量，Di为每簇中第i条文本的点赞量，Pi为每簇中第i条文本的评论量，w1、w2和w3为常数，k为聚类簇数；

S22：用传播广度对传播热度进行修正：rk′＝rk×gk

式中：r′k为修正后的传播热度，gk为传播广度，gk＝ls/ns，ls为每簇中发文的用户数量；

S23：重要度Rk计算方法如下：式中：S为总的文本集合数，ri′为第i项需求修正后的传播热度，i为需求项标号。

5.根据权利要求1所述的一种地铁乘客需求动态获取方法，其特征在于，所述步骤S13中特征值通过词频‑逆文档词频度量，词频‑逆文档词频TF‑IDF计算方法如下：TF‑IDF(word)＝TF(word)×IDF(word)式中：TF为词语在一个文本中出现频率，IDF为词语在其他文本中出现频率，TF(word)为某个词在一个文本中出现频率，IDF(word)为文本集合中出现某个词的逆文档频率；

其中：

式中：W(word)为一个词在一个文本中出现次数，W为该词所在文本的词语总数，F为训练样本词语总数，F(word)为一个词在训练样本中出现次数。

6.如权利要求1～5任一所述的地铁乘客需求动态获取方法的获取系统，其特征在于，包括数据获取模型、文本预处理模块、文本过滤模块、文本聚类模块、需求提取模块、新需求评价模块和需求词库；

需求词库用于储存地铁车辆乘客需求相关的需求项；

数据获取模块用于获取社交网络平台中的发文数据；

文本预处理模块用于对获取的文本进行预处理；

文本过滤模块用于过滤掉文本中与乘客需求不相关的文本；

文本聚类模块用于对过滤后的文本数据进行相关性聚类；

需求提取模块用于提取每个聚类簇中的需求项；

新需求评价模块用于判断需求项是否包含在需求词库中，对需求词库进行更新。