1.一种基于海量交通流数据的城市交通热点区域划分方法,其特征在于该方法的具体步骤是:
步骤(1).将各个外场设备卡口获得的过车信息数据发送至中央数据库,过车信息数据包括:车牌号、过车时间、过车方向和过车卡口编号;
步骤(2).根据LDA主题提取模型,获取某设定时间段内中央数据库中所有卡口过车信息数据,将其转化为所需的语料库形式并对其建模,具体为:获取城市所有卡口编号作为单词组成词典,从中央数据库中取某设定时间段内的所有卡口过车信息数据,再从其中获取每辆车在该时间段内由经过的卡口编号组成的过车记录文档,然后将所有车辆的过车记录文档合并形成语料库文档,统计该语料库文档中每辆车在各个卡口的出现概率,将其保存在一个车牌号-卡口的概率矩阵中,该矩阵的每个单元表示某辆车在某个卡口出现的概率;
设共有N个卡口,即N个单词,记为:wordj,j=0,1,...,(N-1),某设定时间段内出现的车有M辆,即M篇文档,记为:doci,i=0,1,...,(M-1),由所有过车信息数据可以得到语料库文档,该语料库文档的每一行记录一辆车在该时间段内经过的卡口编号序列,统计语料库文档中每篇文档所对应词典中各个单词出现的次数及每篇文档的单词总数,分别记为:ai,j、dwSumi;并通过计算得到文档-单词概率矩阵,记为:Mdoc-word,该矩阵共M行、N列,矩阵的第i行第j列对应第i辆车在该时间段内经过第j个卡口的概率,该值为:对语料库文档进行LDA主题建模,假设城市交通热点区域个数为K,即K个主题,记为:topick,k=0,1,...,(K-1),根据LDA模型,假设语料库文档中文档和主题分别满足以α和β为先验参数的狄利克雷分布,那么语料库中每篇文档和每个主题的生成过程分别满足 和 多项分布,则语料库中文档-主题的分布和主题-单词的分布可分别表示为doc-topic概率矩阵、topic-word概率矩阵,记为:Mdoc-topic、Mtopic-word,最终的Mtopic-word即为LDA的模型结果;
步骤(3).利用Gibbs Sampling算法,对语料库中所有单词进行主题随机采样直到
Gibbs Sampling收敛得到Mtopic-word,Mtopic-word的第k行表示所有的wordj在该topick下的概率分布,取每个topick中概率最高的c个wordj代表某个交通热点区域,c由所需划分交通热点区域的大小决定;
步骤(4).统计步骤(3)获得的交通热点区域的卡口编号集合所对应的总过车量记为该交通热点区域的交通繁忙指数。