1.一种轨迹数据参数自适应的聚类方法,其特征在于,包括以下步骤:步骤1:输入总的轨迹数据,设置参数T和α,其中,T为取数据的时间间隔,α为置信系数;
步骤2:总的轨迹数据中每隔时间间隔T的数据构成一个数据块Si,其中,S1代表第一个时间间隔T的数据块,S2代表第二个时间间隔T的数据块,以此类推;
将S1和S2这两个数据块取交集,即S1∩S2,获得交集数据,交集数据存入交集单元;
将S1和S2这两个数据块取并集,即S1∪S2,获得并集数据,并集数据存入并集单元;
步骤3:利用交集单元中的数据获取置信区间,获取并集单元中落入置信区间的数据个数n,并集单元中总数据个数为N,判断n/N是否大于等于1‑α,若不满足则执行步骤4;若满足则计算交集单元里的数据分布情况和并集单元里的数据分布情况,再计算分布散度;
判断分布散度是否接近0,若满足则执行步骤5,若不满足则执行步骤4;
利用交集单元中的数据获取置信区间的过程为:
交集单元中的数据为{A1,......,Ak},每个数据包括经度值xk和纬度值yk;
则置信区间包括k个置信区间,分别为:
第一置信区间[x1(1‑α),x1(1+α)],[y1(1‑α),y1(1+α)];
……
第k置信区间[xk(1‑α),xk(1+α)],[yk(1‑α),yk(1+α)];
并集单元中落入置信区间的数据个数的确定过程为:遍历并集单元中的所有数据,找出能够落入以上置信区间的数据的个数n;
步骤4:取下一个时间间隔T的数据块,将下一个时间间隔T的数据块与并集单元取交集,更新交集单元;
将下一个时间间隔T的数据块与并集单元取并集,更新并集单元;
返回步骤3;
步骤5:将获得的交集单元中的数据作为样本点,根据样本点,计算DBSCAN算法要用的参数eps和MinPts;
计算DBSCAN算法要用的参数eps的过程为:将数据的经度值设为x轴,纬度值设为y轴,样本点扩展为二维数据为(xk,yk),找到样本点中经度值的最大值xmax和最小值xmin,纬度值的最大值ymax和最小值xmin,构建最大值点(xmax,ymax),最小值点(xmin,ymin),则最大值点与最小值点的距离为l;
则
其中,k为样本点的个数;
计算MinPts的过程为:
将k个样本点的经度和维度映射为矩阵,上式计算的eps取整为h,以h*h的窗口为大小,以1*1的步长进行滑动,计算出窗口中最多的点的个数与最少的点个数取均值就为MinPts的值;
步骤6:根据步骤5得到的eps和MinPts,利用DBSCAN算法进行密度聚类,密度聚类后,返回步骤4,直至所有数据块遍历完成。
2.根据权利要求1所述的一种轨迹数据参数自适应的聚类方法,其特征在于,计算交集单元里的数据分布情况的公式为:其中,Pj为数据Aj在交集单元里的分布情况, 代表交集单元里所有数据的均值,代表的是Aj与 的欧氏距离,∑k≠jd(Aj,Ak)代表Aj与交集单元里除去Aj本身的其它所有数据的欧氏距离的总和;
计算并集单元里的数据分布情况为计算并集单元里与交集单元重合的那部分数据的分布情况,实际上就是交集单元的数据在并集单元里的分布情况;
公式为:
其中,Qj为数据Aj在并集单元里的分布情况,代表交集单元里所有数据的均值,m代表交集单元的数据总数,Bm代表交集单元的所有数据,Aj∈Bm, 代表的是Aj与 的欧氏距离,∑m≠jd(Aj,Bm)代表Aj与并集单元里除去Aj本身的其它所有数据的欧氏距离的总和;
分布散度计算公式为:
其中,D(P||Q)代表分布散度。