1.基于主题模型的交通轨迹数据语义分析与可视化方法,包括以下步骤:
步骤1.提取轨迹主题:需要为主题模型选取一个合适的主题数,主题数对后续使用张量分析主题语义的效果有显著影响;
1.1轨迹的文本化;车辆轨迹Tr是由一系列有序的经纬度坐标点Vi构成的,即{Tr|Vi,Vi+1,...};经纬度坐标Vi(lon,lat)是一个数值元组,而主题模型是自然语言处理领域的一种方法,想要使用主题模型从轨迹中提取主题就要将轨迹文本化;轨迹文本化策略是:在空间上将研究的空间区域划分成n×m个子矩形网格区域并编号Gr,Gr∈(0,n×m-1)),然后将车辆轨迹投影到对应的网格中,得到一条可以表示轨迹的网格序列{Tr|Gri,Gri+1,...};在时间上把一天的轨迹按24个小时分割,在网格序列的每一个网格后附加时间信息,构造出时空单元,接着就可以得到用时空单元表示的轨迹{Tr|Gr1_hour1,Gr2_hour1,...};从带有时空属性的坐标Vi到时空单元“Gri_hourj”的转换就是轨迹文本化的核心操作;如果把一条轨迹对应的网格编号序列看做一篇文档,那么所有轨迹的网格编号序列就构成一个文档集;
1.2提取主题;选择NMF作为主题提取算法;
1.2.1构造词频矩阵;通过统计轨迹文档中每一个时空单元在其所隶属的轨迹中出现的次数构造轨迹文档集的词频矩阵;该词频矩阵直接作为NMF的输入矩阵;
1.2.2选择主题数量k;关于主题模型数量的确定,应当遵循如下原则:
a)各主题空间上应广泛分布于所研究的空间区域各处;首先,主题的区域分布中隐含了主题的一部分语义,清晰的主题区域分布中主题语义往往更加显著;其次,一个主题通常会在一个区域有集中分布;所以每个主题都应该具有与众不同的区域分布特征;
b)各主题时间上应集中分布于某一连续时间段,且主题分布的时间跨度尽可能少;轨迹主题在时间上往往会有显著的早、中、晚等时间特征;
c)各主题应尽量保持在时间和空间分布上的独立性,避免在时空上的重叠覆盖;独立性较差的主题通常也会有含混不清的语义;
1.2.3设定主题个数k,对词频矩阵应用NMF算法提取主题模式;
步骤2.构造张量;
经过NMF模型的处理,得到由带有主题隶属度的时空单元构成的k个主题,以及每条轨迹在k个主题上的隶属度分布;基于主题数据构造张量的步骤如下;
2.1过滤时空单元;与主题Ti有相关性的时空单元上都会有对应于该主题的隶属度值;
主题数据预处理的第一步,就是过滤掉在Ti上隶属度为0的时空单元以简化后续操作;
2.2分类主题时空单元;第二步就是根据时空单元自带的时间戳,对每个主题的时空单元进行分类,最后就会得到所有主题在各个时间段的空间网格分布信息;这种分布信息描述的是各个主题在时间上的变化情况,因为每个主题在不同的时间段都会有一种与众不同的空间区域分布;
2.3构造三维张量;经过上述步骤的处理,对于每个主题都可以提取出主题号(T)、时间(H)、空间区域(G)三个特征;基于这三个特征,构造出一个三维张量 其中,主题号T是对k个主题的编号以区分不同的主题,时间特征H包含24个小时,空间区域G就是划分的网格区域,即n×m个网格区域;
步骤3.分解张量;
对于构造出的三维张量,采用张量的CP分解把张量分解成一系列秩一张量的和;三维张量 的CP分解如公式(1)所示:tr,hr,gr是三个向量,其中 且r=1,...,R;其中R是一个
整数,它指定了张量分解的秩;因子矩阵T,H,G是由张量分解后的向量合并而成的,T=[t1,t2,...,tR],H,G同理;
对于张量CP分解得到的一系列秩一张量,称作主题的模式;设定张量的秩R与主题数k相同,这就得到k个模式;k个主题模式与k个主题之间有明显的相关性,即模式能够反应出主题的内容,因此可以通过张量分解来进一步研究k个轨迹主题;
步骤4.模式可视化;
将主题模式近似看作是主题的另一种表现形式,对模式的分析也就是对主题的分析;
设计了如下三个可视化视图从不同维度来展现张量分解的模式,通过这种方式简化了用户对主题的时空探索以及对主题语义理解;
4.1模式主题分布图
使用因子矩阵T(k×k维)设计模式主题分布图;因子矩阵T中的每个列向量tr都表示一个模式, 是一个k维(k个主题)的向量,每一维的值代表对应主题在模式tr上的隶属度;使用折线图的方式展现k模式的主题分布,视图的横坐标是k个主题号,纵坐标是主题关于模式的隶属度值;该视图不仅能够看出主题与模式之间显著的一一对应关系,当一个模式在两个主题上都有分布时能够反应出主题之间的相似性,这表示这两个主题在语义上存在一定的相似性;
4.2模式时间分布图
模式时间分布图中的具体数据来源自因子矩阵H;矩阵H是一个k×24维的矩阵;每一个k维向量hr都是一个模式的时间分布,向量的每一维值的大小代表了该模式在当前时间段的分布强度;由此,使用24个时间段作为的横坐标,hr中存储的值作为纵坐标绘制了另一幅折线图;通过该视图,能够清晰的观察出某个模式在时间上分布情况;根据模式在不同时段的强度变化,用户可以轻松的分析出模式在时间维度的语义,如某个模式在午夜时段有显著分布,那这个模式是一个反应夜间出行规律的模式;
4.3模式区域分布图
另一个因子矩阵G是一个k×(m×n)维的矩阵,该矩阵的每一列gr表示了一个模式在区域上的分布情况;gr的每一维代表一个网格区域,其中存储的值表明该区域关于当前模式的相关度;基于因子矩阵G,采用热力图来描述模式的空间分布情况;热力图中的网格颜色编码了向量gr中的值;模式或主题的区域分布情况中包含了空间语义信息;用户通过直接观察该模式的区域分布获取主题空间语义信息,消除了用户反复观察多张不同时间下主题区域分布图的记忆负担。