1.一种基于大数据的多源数据融合算法,其特征在于,包括如下步骤:
步骤一:输入多个数据源的交通初始数据集,并将数据集的编码统一设置为GBK编码,在文件的第一列采用ID属性来标识和区别不同行的数据;
步骤二:对交通初始数据集进行预处理;所述预处理表现为剔除交通初始数据集中的不合格信息;
步骤三:对预处理后的交通数据信息进行特征提取,以得到交通特征数据;具体为:首先获取任意时间段或任意路段内的不同数据源中的不同数据;再根据获取的不同数据以得到交通特征数据;
步骤四:对待融合交通特征数据进行观测系数GF分析,根据观测系数GF分配对应数量的数据融合终端对待融合交通特征数据进行融合;其中融合基于HFCM聚类算法;具体分析步骤为:获取待融合交通特征数据对应的时间断面,调取对应时间断面的研究吸引值为YG;统计待融合交通特征数据的数据大小为D1;
利用公式GF=YG×g1+D1×g2计算得到待融合交通特征数据的观测系数GF;其中g1、g2为系数因子;
根据观测系数GF确定数据融合终端的分配数量为L1;具体为:
获得预先构建的观测系数范围与终端数量阈值的映射关系表;所述观测系数范围与终端数量阈值的映射关系表基于数据融合终端响应用户进行的第一配置操作生成;
基于观测系数GF和观测系数范围与终端数量阈值的映射关系表,确定观测系数GF对应的终端数量阈值为L1;
步骤五:数据融合终端采集若干个交通特征数据进行融合,生成交通融合数据;将城市交通划分为若干个区域,获取各区域的路段车流量信息,与交通融合数据进行集中处理并分析评估,输出交通评估数据信息;
步骤六:在数据融合过程中,对数据融合终端的算力占用情况进行监测分析,计算得到算力饱和系数KY;判断是否需要重新分配所述数据融合终端的算力资源;具体分析步骤为:从初始时刻起,按照预设间隔采集数据融合终端的算力占用率并标记为Nc,建立算力占用率Nc随时间变化的曲线图;
当曲线图处于上升阶段时,对曲线图进行求导获取占用率变化速率曲线图;将数据融合终端的实时算力占用率变化速率标记为Vt;
将Vt与预设速率阈值相比较;若Vt>预设速率阈值,则表示数据融合终端忙于数据融合,在对应的曲线图中截取对应的曲线段进行标注;
在预设时间内,统计标注曲线段的数量为R1,将所有的标注曲线段对时间进行积分得到标注参考能量WE,利用公式 WR=R1×d1+WE×d2计算得到所述数据融合终端的运算热度值WR,其中d1、d2均为系数因子;
获取数据融合终端的当前算力占用率为Nt,利用公式KY=Nt×d3+WR×d4计算得到核心节点的算力饱和系数KY,其中d3、d4均为系数因子;
将算力饱和系数KY与预设饱和阈值相比较;若KY>预设饱和阈值,则判定所述数据融合终端的算力资源不足,生成算力扩充信号;以提醒管理人员扩充所述数据融合终端的算力资源;
所述多源数据融合算法还包括:对交通评估数据信息进行访问监测,并根据访问记录进行研究吸引值分析,具体分析步骤为:在预设时间内,获取交通评估数据信息的访问记录;所述访问记录包括访问开始时刻和访问结束时刻;获取交通评估数据信息对应的时间断面;
针对同一时间断面,统计该时间断面的访问次数为C1;将每次访问的访问时长进行累加得到访问总时长ZT;利用公式YG=C1×a1+ZT×a2计算得到该时间断面的研究吸引值YG,其中a1、a2为系数因子。
2.根据权利要求1所述的一种基于大数据的多源数据融合算法,其特征在于,其中,多个数据源包括从手机GPS中获取的手机实时移动速度信息、路况摄像头获取的所在路段的车辆速度信息以及从浮动车辆GPS中获取的实时车辆位置和行驶速度信息。
3.根据权利要求1所述的一种基于大数据的多源数据融合算法,其特征在于,所述不合格信息包括车辆瞬时速度大于合理值的交通数据信息、视频采样时间和存储时间不同的交通数据信息以及GPS定位中车辆经纬度超过合理范围的交通数据信息。
4.根据权利要求1所述的一种基于大数据的多源数据融合算法,其特征在于,交通融合数据包括任一时间且任一路段上所有手机、路况摄像头获取的所在路段的车辆和浮动车辆的平均速度信息;集中处理具体为将各区域的路段车流量信息和交通融合信息进行汇总,即具体地将每个路段对应的交通融合信息进行汇总,从而进行评估所在区域的交通数据信息。