1.一种对出行链断链时公交IC卡乘客进行下车站点识别的方法,其特征在于,包括如下步骤:
1)根据常规公交的IC刷卡数据以及运营车辆数据,使用第一层Stacking框架对常规公交IC刷卡乘客下车站点进行识别;
2)将步骤1)的识别结果作为输入,使用第二层Stacking框架基于Logistic回归模型对常规公交IC刷卡乘客下车站点进行识别。
2.根据权利要求1所述的对出行链断链时公交IC卡乘客进行下车站点识别的方法,其特征在于,步骤1)中,设第m个乘客第d天第b个出行链断裂的出行,是在l线路f方向第T个班次J个站点中的第j1个站点 上车,则通过识别获得该次出行在第j2个可能下车站点的下车概率,其中,j1<j2<J;
采用使用第一层Stacking框架进行基于个人高频站点的方法、基于下游站点吸引权的方法、基于换乘便利性概率的方法、基于用地性质吸引概率的方法和基于群体历史记录方法中的一种或几种,对常规公交IC刷卡乘客下车站点进行识别,分别获得则该次出行在第j2个可能下车站点 的下车概率
3.根据权利要求2所述的对出行链断链时公交IC卡乘客进行下车站点识别的方法,其特征在于,步骤1)中,基于个人高频站点的方法确定可能下车站点的下车概率的方法如下:统计第m个乘客在研究时间段D天内,在第j2个可能下车站点 的上车刷卡总次数则该次出行在第j2个可能下车站点 的下车概率如下:
4.根据权利要求2所述的对出行链断链时公交IC卡乘客进行下车站点识别的方法,其特征在于,步骤1)中,基于下游站点吸引权的方法确定可能下车站点的下车概率的方法如下:
统计第m个乘客在第j1个站点 上车的所乘公交班次中,在第j2个可能下车站点的上车刷卡总次数Numj2,则该次出行在第j2个可能下车站点 的下车概率如下:
5.根据权利要求2所述的对出行链断链时公交IC卡乘客进行下车站点识别的方法,其特征在于,步骤1)中,基于换乘便利性概率的方法确定可能下车站点的下车概率的方法如下:
根据公交静态线路站点信息统计第j2个可能下车站点 的公交线路数量 则该次出行在第j2个可能下车站点 的下车概率如下:且,
6.根据权利要求2所述的对出行链断链时公交IC卡乘客进行下车站点识别的方法,其特征在于,步骤1)中,基于用地性质吸引概率的方法确定可能下车站点的下车概率的方法如下:
设第j2个可能下车站点 的周边研究区域内共有H种城市建设土地类型,则该次出行在第j2个可能下车站点 的下车概率如下:其中,Ch为第h∈{1,2,...,H}种城市建设土地类型的吸引系数, 为可能下车站点的周围第h种城市建设土地类型的占地比。
7.根据权利要求2所述的对出行链断链时公交IC卡乘客进行下车站点识别的方法,其特征在于,步骤1)中,基于群体历史记录方法确定可能下车站点的下车概率的方法如下:A)将已识别上车站点的公交IC卡数据聚类成簇,将同簇基于出行链方法识别下车站点的公交IC卡数据作为历史群体记录,进行待识别下车站点的确定;
B)构建聚类指标,所述的聚类指标包括两类,第一类为已识别上车站点的公交IC卡数据中的相关字段,用于记录每一次刷卡产生的数据;第二类为根据第一类聚类指标和实际情况构建的若干指标,用于挖掘不同IC卡数据之间的相似性;
C)选取若干种聚类指标,对选取的聚类指标进行归一化,采用最大最小标准化对聚类指标进行缩放,使指标取值位于给定的最小值和最大值之间,然后将每个聚类指标的特征值缩放到单位大小。
D)基于K‑Means算法的聚类,并结合肘部法则,确定最好的聚类类别个数CG,得到刷卡出行模式
E)设第m个乘客第d天第b个出行链断裂的出行数据属于簇 则将簇 中基于出行链方法确定下车站点的记录作为群体历史记录数据集;并根据群体历史记录数据集确定在上车且在第j2个可能下车站点 下车的频次为 则该次出行在第j2个可能下车站点 的下车概率如下:
8.根据权利要求2至7任一项所述的对出行链断链时公交IC卡乘客进行下车站点识别的方法,其特征在于,步骤2)具体如下:
2.1)建立模型,将步骤1)识别获得的可能下车站点分别标记为0或1,标记为1的可能下车站点为识别出的正确下车站点,标记为0的可能下车站点为不正确下车站点,正确下车站点与不正确下车站点共同作为第二层Stacking框架的Logistic回归模型的输入;
对于第m个乘客第d天第b个出行链断裂的出行,Logistic回归模型的输出为该次出行在第j2个可能下车站点的下车概率,如下:其中, 是输入向量, Pm,d,b(j1,j2)为中的一种或几种;
是权值向量, W为w1、w2、w3、w4、w5中的一种或几种,分别表示的权重,w0为偏置;
2.2)使用基于出行链方法识别下车站点的公交IC卡数据,并作为训练集和测试集进行模型的学习;
2.3)选用极大似然估计法来估计模型参数,并采用适合大规模数据计算的L‑BFGS算法进行参数数值的确定;则在第j2个可能下车站点 的下车概率如下:其中, 为 的极大似然估计值;
2.4)第m个乘客第d天第b个出行链断裂的出行的下车站点 是可能下车站点中下车概率最大的第j2个可能下车站点 具体如下:
9.根据权利要求8所述的对出行链断链时公交IC卡乘客进行下车站点识别的方法,其特征在于,步骤2.2)中,如果不正确下车站点的数量大于正确下车站点的数量,则执行如下步骤:
2.2.1)对不正确下车站点的数据采用随机欠采样,并与正确下车站点的原数据合并;
2.2.2)对于正确下车站点的数据进行基于SMOTE算法的过采样,并与不正确下车站点的原数据合并;
2.2.3)将步骤2.2.1)、步骤2.2.2)合并后的数据进行合并,选取其中的90%作为Logistic回归模型的训练数据集,剩余的10%作为Logistic回归模型的测试集。
10.根据权利要求8所述的对出行链断链时公交IC卡乘客进行下车站点识别的方法,其特征在于,步骤2.4)中,在确定下车站点的站点编号后,结合公交静态线路站点信息,确定下车站点名称和经纬度。