1.一种基于路网聚类的热点区域挖掘方法,其特征在于,包括以下步骤:
步骤1:搜集出租车轨迹数据集,进行包括数据标准化、归一化的数据预处理,保留有效字段,删除冗余数据,得到预处理后的车辆上下客轨迹点;
步骤2:确定城市经纬度范围,在开源网站上提取该城市包括商场、学校在内的兴趣点;
步骤3:获取城市的路网信息,将轨迹点映射到道路网络中;
步骤4:选取经过步骤1预处理后的车辆上下客轨迹点中的80%作为训练集,采用改进的基于反向学习围绕中心点划分聚类算法聚类出代表上下车热点的区域,改进点在于:使用密度峰选取初始聚类中心;其余20%作为测试集,测试由上下客轨迹点中的80%作为训练集搭建好模型的聚类效果;
步骤5:将步骤4的模型中输入步骤3采集到的具有路网信息的兴趣点,聚类得到具有路网特征的居民热点活动区域,将聚类结果和采集到的兴趣点对比,判断居民出行的热点区域;
所述步骤4具体为:首先选取处理好的车辆上下客轨迹点中的80%作为训练集,采用改进的基于反向学习围绕中心点划分聚类算法聚类出代表上下车热点的区域,改进的基于反向学习围绕中心点划分聚类算法分为三个阶段:第一个阶段初始化,构造决策图,选取远离大部分样本的右上角区域的密度峰值点作为初始聚类中心,密度峰值点个数为类簇数k;第二阶段构造初始聚类中心,计算数据集中的各点与每个聚类中心的最小距离,将其余样本点分配到最近初始类簇中心,形成初始划分,计算聚类误差平方和;第三阶段反向学习并代入围绕中心点划分聚类算法,将围绕中心点划分聚类算法得到的k个簇和经反向学习后得到k个反向簇进行排列组合得到k×k个类簇组合,寻找轮廓系数最大的类簇组合;
所述围绕中心点划分聚类算法的步骤如下:
(1)从给定数据集D中任意选取k个元素,将选定的k个元素标记为初始代表对象或种子oj;
(2)根据欧氏距离计算方式,计算数据集D中的任一非代表对象oi与k个代表对象之间的距离,并将oi分配到与其距离最近的代表对象所代表的簇;
(3)任意选取一个非代表对象orandom;
(4)计算总代价S:
S=dist(p,orandom)‑dist(p,oj),
(5)如果总代价S<0,表明非代表对象orandom是较优解,元素orandom代替元素oj,形成新的k个代表对象的集合,继续返回到步骤(2),做新一轮的对象分配;
(6)如果总代价S>0,表明代表对象oj是较优解,转到步骤(3),重新选取非代表对象进行总代价的比较,直至送代价S不再发生变化,即得到总代价最小的k个类簇;
对于待测量轨迹tra和trb采用Hausdorff距离测量轨迹相似度,H(tra,trb)=max{h(t ra ,tr b) ,h (t rb ,tr a)} ,其 中应用Hausdorff距离计算两条轨迹中每个点到另外一
条轨迹上所有点的最小值,然后从各自的最小值集合中找出最大的;当小于相似度阈值时认为和兴趣点空间上相似,将被保存到候选集合中;把候选集合中距离大于某个阈值的轨迹删除,得到离轨迹最近的路网兴趣点,即居民出行热点区域;
设样本的数据点为i,局部密度为ρi,数据点i的局部密度ρi的计算方式为:其中, dc为截断距离,定义δi是数据点i到任何比其局
部密度大的点的距离的最小值:δi=minj:ρj>ρi(dij),对于局部密度最大的点,需要特殊处理,改点的值为:δi=maxj(dij);
第一阶段初始化
(1)初始化求出各数据点之间的距离矩阵D={dij}i,j=1,...,n,并确定截断距离;
(2)根据公式S=dist(p,orandom)‑dist(p,oj)求出局部密度,利用公式 计算样本的高密度距离δi;
(3)构造以ρ为横轴,δ为纵轴的决策图,选择局部密度ρ和高密度距离δ都较高的数据点,且远离大部分样本的右上角区域的密度峰值点作为初始聚类中心,密度峰值点个数为类簇数k。
2.根据权利要求1所述的基于路网聚类的热点区域挖掘方法,其特征在于,所述步骤1具体为:首先搜集城市某月的出租车轨迹数据集,选取该城市数据量集中一周的轨迹数据,进行数据预处理,保留上下车轨迹点经纬度数据,上下车时间数据有效字段,删除冗余数据。
3.根据权利要求1所述的基于路网聚类的热点区域挖掘方法,其特征在于,所述步骤2确定城市经纬度范围,在开源网站上提取该城市包括商场、学校在内的兴趣点,具体为:首先在开源网站openstreetmap上输入目标城市的经纬度范围,下载整个城市的地图,导出的OSM地图数据中way代表用户的移动轨迹,node代表路径,选取node标签为residence、school、shop为代表兴趣点。
4.根据权利要求3所述的基于路网聚类的热点区域挖掘方法,其特征在于,所述步骤3获取城市的路网信息,将轨迹点映射到道路网络中,具体为:采用TAREEG网络服务项目得到电子地图数据,提取该城市的路网信息,提取城市路网数据后,通过ST‑Matching模型将上述所得的移动轨迹投射到获取到的路网地图上,得到司机经过每一个路段e上j个连续时刻的轨迹点pi,…,pj。