欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2019101231260
申请人: 华侨大学
专利类型:发明专利
专利状态:已下证
专利领域: 信号装置
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:所述方法包括如下步骤:

步骤S1、根据常规公交的IC刷卡数据以及运营车辆数据,对于不同乘客在同一天同一线路号同一班次公交车的常规公交乘客IC刷卡时间进行聚类,并进行关联分析确定常规公交IC刷卡乘客上车站点识别;

步骤S2、根据常规公交、BRT和地铁的IC刷卡数据以及运营车辆数据,进行基于常规公交、BRT、地铁的IC刷卡数据组成的IC刷卡乘客出行链下车站点识别;

步骤S3、对未识别下车站点的数据进行基于历史乘车记录的常规公交IC刷卡乘客下车站点识别;

步骤S4、对仍未识别下车站点的数据进行基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别;

步骤S5、对已匹配上车站点的常规公交IC刷卡数据,进行基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验;同时,对已匹配下车站点的常规公交IC刷卡数据,进行基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验。

2.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:在所述步骤S1中,对于不同乘客在同一天同一线路号同一班次公交车的常规公交乘客IC刷卡时间进行聚类,并进行关联分析确定常规公交IC刷卡乘客上车站点识别具体包括如下步骤:

步骤101、判断第k个乘客的第i条交易数据之后是否存在第i+1条交易数据,若是,则进入步骤102;若否,则进入步骤103;

步骤102、对于第i条交易数据和第i+1条交易数据,判断是否同时满足式(1)和式(2):JYRQk,i=JYRQk,i+1                            (1)JYSJk,i+1‑JYSJk,i

若同时满足式(1)和式(2),则删除该第k个乘客的第i+1条交易数据,并进入步骤103;

若不同时满足式(1)和式(2),则不做改动,并进入步骤103;

步骤103、寻找第f辆常规公交的第j条记录,判断第f辆常规公交的第j条记录与第k个乘客的第i条交易数据是否同时满足式(3)、式(4)和式(5):JYRQk,i=GRQf,j                        (3)XLHk,i=GXLHf,j                        (4)CPHk,i=GCPHf,j                        (5)在式(3)中,JYRQk,i为第k个乘客的第i条交易数据的交易日期,GRQf,j为第f辆常规公交的第j条记录的交易日期;在式(4)中,XLHk,i为第k个乘客的第i条交易数据的线路号,GXLHf,j为第f辆常规公交的第j条记录的线路号;在式(5)中,CPHk,i为第k个乘客的第i条交易数据的车牌号,GCPHf,j为第f辆常规公交第j条记录的车牌号;

若同时满足式(3)、式(4)和式(5),则继续判断是否满足式(6):(min|JYSJk,i‑GSJf,j|)>Tys             (6)在式(6)中,JYSJk,i为第k个乘客的第i条交易数据的交易时间,GSJf,j为第f辆常规公交的第j条记录的时间,Tys为最小公交刷卡与公交到站时间差值;

如果满足式(6),则删除该第k个乘客的第i条交易数据,并进入步骤108;

如果不满足式(6),则不做改动,并进入步骤104;

若不同时满足式(3)、式(4)和式(5),则删除该第k个乘客的第i条交易数据,并进入步骤108;

步骤104、将第k个乘客的第i条交易数据的交易时间JYSJk,i和第f辆常规公交的第j条记录的时间GSJf,j,均统一转换为以一天的00:00:00为参照的以秒为单位的数字型的相对数值;

步骤105、对于第f辆常规公交所包括的J条数据,逐一判断每一条数据是否为进站时的值,即满足式(7):

GJCZf,j≠Njcz,j=1,2,…,J                (7)在式(7)中,Njcz为进站时的值,GJCZf,j表示第f辆常规公交的第j条数据的状态取值;

如果是,则保留对应的数据,如果否,则删除对应的数据;且在J条数据都判断完后,进入步骤106;

步骤106、寻找第z个站点的站点信息,判断第z个站点的站点信息与第f辆常规公交的第j条记录是否同时满足式(8)和式(9):GXLHf,j=ZDXLHZ                   (8)GZDBHf,j=ZDBHz                   (9)在式(8)中,GXLHf,j为第f辆常规公交的第j条记录的线路号,ZDXLHZ为第z个站点的线路号;在式(9)中,GZDBHf,j为第f辆常规公交的第j条记录的站点编号,ZDBHz为第z个站点的站点编号;

若同时满足式(8)和式(9),则该第j条记录即为到达第z个站点时的记录,将该第j条记录的交易时间记为GSJf,j,z,并进入步骤107;

若不同时满足式(8)和式(9),则从第f辆常规公交的记录中删除该第j条记录,并进入步骤103;

步骤107、对于按照交易先后排序的第k,k+1,...,k+n个乘客的交易数据和第f辆常规公交的第j条记录,判断是否同时满足式(10)、式(11)、式(12)和式(13):XLHk,i=XLHk+1,i=...=XLHk+n,i=GXLHf,j              (10)CPHk,i=CPHk+1,i=...=CPHk+n,i=GCPHf,j               (11)JYRQk,i=JYRQk+1,i=...=JYRQk+n,i=GRQf,j               (12)|JYSJk,i‑JYSJk+1,i|,|JYSJk+1,i‑JYSJk+2,i|,…≤Tjl         (13)在式(10)中,XLHk,i=XLHk+1,i=...=XLHk+n,i分别为第k,k+1,...,k+n个乘客的交易数据的线路号,GXLHf,j为第f辆常规公交的第j条记录的线路号;在式(11)中,CPHk,i=CPHk+1,i=...=CPHk+n,i分别为第k,k+1,...,k+n个乘客的交易数据的车牌号,GCPHf,j为第f辆常规公交的第j条记录的车牌号;在式(12)中,JYRQk,i=JYRQk+1,i=...=JYRQk+n,i分别为第k,k+

1,...,k+n个乘客的交易数据的交易日期,GRQf,j为第f辆常规公交的第j条记录的交易日期;在式(13)中,Tjl为两公交站点间的最大运行时间差值;

若同时满足式(10)、式(11)、式(12)和式(13),则说明第k,k+1,...,k+n个乘客均为在同一个站点上车的同一类乘客;

同时,针对常规公交在真实到站后GPS仍未显示到站的情况,分别设置第一缓冲时间Tone和第二缓冲时间Ttwo;

如果第k,k+1,...,k+n个乘客的交易数据的交易时间均处在GSJf,j,z‑Ttwo到GSJf,j,z‑Tone之间,即满足式(14):

GSJf,j,z+Tone>JYSJk,i,JYSJk+1,i,…>GSJf,j,z‑Ttwo     (14)且第i条交易数据的交易时间JYSJk,i与GSJf,j之间的差值最小,即满足式(15):min{|JYSJk,i‑GSJf,j,z|},z=1,2,…,Z                       (15)则第z个站点名即为第k个乘客的第i条交易数据的上车站点名,即:UPstationk,i=ZDMz                     (16)同时,同一类的第k+1,...,k+n个乘客的第i条交易数据的上车站点名也为ZDMz,即:UPstationk+1,i=...=UPstationk+n,i=ZDMz              (17),之后进入步骤108;

否则,如果不同时满足式(14)和式(15),则说明第k个乘客的交易数据无法匹配上车站点,并进入步骤108;

若不同时满足式(10)、式(11)、式(12)和式(13),则删除该第k个乘客的第i条交易数据,并进入步骤108;

步骤108、判断第k个乘客的交易数据是否均匹配了上车站点,如果是,则进入步骤109,如果否,则将未匹配上车站点的交易数据作为第i条交易数据,并返回步骤101;

步骤109、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客,如果是,则结束上车站点匹配;如果否,则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客,并返回步骤101。

3.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:在所述步骤S2中,基于出行链方法进行常规公交IC刷卡乘客下车站点识别具体包括如下步骤:

步骤201、判断第x天第k个乘客的第i条交易数据之后是否存在第i+1条交易数据,若是,则进入步骤202;若否,则进入步骤203;

步骤202、第i+1条交易数据的上车站点UPstationk,i+1与第x天第k个乘客的第i条交易数据在线路号为XLHx,k,i、站点编号为z的上车站点UPstationk,i之后的各站点的曼哈顿距离为:

L(UPstationk,i+1,z+1),…,L(UPstationk,i+1,z+e),…,L(UPstationk,i+1,Z)   (18)其中有:

L(UPstationk,i+1,z+e)=min{L(UPstationk,i+1,z+1),…,L(UPstationk,i+1,z+e),…,L(UPstationk,i+1,Z)}(19)当式(19)满足式(20)和式(21)时:L(UPstationk,i+1,z+e)GYSJz+e                             (21)在式(20)中,Lfy为设置的最短距离的阈值;在式(21)中,JYSJk,i+1为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i+1条交易数据的上车站点UPstationk,i+1的交易时间;GYSJz+e为以一天的00:00:00为参照的以秒为单位的数字型的相对数值的第i条交易数据所对应的常规公交在到达z+e站点时的时间;

则第z+e个站点名即为第x天第k个乘客的第i条交易数据的下车站点名,即:DOWNstationk,i=ZDMz+e                    (22)之后进入步骤203;

当式(19)不满足式(20)和式(21)时,则直接进入步骤204;

步骤203、第x天第k个乘客的第1条交易数据的上车站点UPstationk,1与第x天第k个乘客的第i条交易数据在线路号为XLHx,k,i、站点编号为z的上车站点UPstationk,i之后的各站点的曼哈顿距离为:

L(UPstationk,1,z+1),…,L(UPstationk,1,z+e),…,L(UPstationk,1,Z)    (23)其中有:

L(UPstationk,1,z+e)=min{L(UPstationk,1,z+1),…,L(UPstationk,1,z+e),…,L(UPstationk,1,Z)}(24)当式(24)满足式(25)时:

L(UPstationk,1,z+e)

则第z+e个站点名即为第x天第k个乘客的第i条交易数据的下车站点名,即:DOWNstationk,i=ZDMz+e                        (26)之后进入步骤204;

当式(24)不满足式(25)时,则直接进入步骤204;

步骤204、判断第k个乘客的交易数据是否均匹配了上车站点,如果是,则进入步骤205,如果否,则将未匹配上车站点的交易数据作为第i条交易数据,并返回步骤201;

步骤205、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客,如果是,则结束上车站点匹配;如果否,则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客,并返回步骤201。

4.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:在所述步骤S3中,所述基于历史乘车记录的常规公交IC刷卡乘客下车站点识别具体包括如下步骤:

步骤301、判断第x天第k个乘客的第i条交易数据是否在第x天以前的记录中有上车站点UPstationk=UPstationk,i的乘车历史记录;

如果是,则乘车历史记录中上车站点UPstationk对应的下车站点DOWNstationk即为第k个乘客的第i条交易数据的下车站点DOWNstationk,i,并进入步骤302;如果否,则将未判断过是否有乘车历史记录的未匹配下车站点的交易数据作为第i条交易数据,并返回步骤

301;

步骤302、判断第k个乘客的交易数据是否均匹配了下车站点,如果是,则进入步骤303;

如果否,则将未匹配下车站点的交易数据作为第i条交易数据,并返回步骤301;

步骤303、判断第k个乘客是否为最后一个有上车站点未匹配交易数据的乘客,如果是,则结束上车站点匹配;如果否,则将下一个有未匹配上车站点交易数据的乘客作为第k个乘客,并返回步骤301。

5.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:在所述步骤S4中,所述基于贝叶斯后验最大似然估计的常规公交IC刷卡乘客下车站点识别具体包括如下步骤:

步骤401、设第x天第k个乘客的第i条交易数据在第f辆常规公交上,且该常规公交在第k个乘客的上车站点UPstationk,i,z后到达的站点分别为z+1,…,z+e,…,Z;通过该常规公交已判断出的上、下车站点的乘客记录,可得:其中,P(GDOWNstationz+e|GUPstationz)表示第f辆常规公交已有上、下车完整记录的乘客在站点z上车、在站点z+e下车的概率;P(GDOWNstationz+e,GUPstationz)表示第f辆常规公交已有上、下车完整记录的乘客在站点z上车、在站点z+e下车的乘客数量;P(GUPstationz)表示第f辆常规公交已有上车完整记录的乘客在站点z上车的乘客数量;

则第k个乘客的第i条交易数据在之后各站点的下车概率为:P(DOWNstationk,i,z+e|UPstationk,i,z)=P(GDOWNstationz+e|GUPstationz),e=1,2,…,(Z‑z) (28)

相当于第k个乘客在站点z上车后,有P(GDOWNstationz+e|GUPstationz)的概率在第z+e个站点下车;

步骤402、判断第k个乘客的交易数据是否均匹配了下车站点,如果是,则进入步骤403;

如果否,则将未匹配下车站点的交易数据作为第i条交易数据,并返回步骤401;

步骤403、判断第k个乘客是否为最后一个有下车站点未匹配交易数据的乘客,如果是,则结束下车站点匹配;如果否,则将下一个有未匹配下车站点交易数据的乘客作为第k个乘客,并返回步骤401。

6.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:在所述步骤S5中,所述基于配对样本t检验的常规公交IC刷卡乘客上车站点识别检验具体包括如下步骤:

步骤501、在第f辆常规公交的数据中,设该常规公交到达第1,…,z,…,Z个站点的时间分别为GSJ1,…,GSJz,…,GSJZ;

步骤502、对于到达第z个站点,且按照交易先后排序的第kz,k+1z,k+2z,…个乘客的交易数据,如果相邻两个乘客之间的交易时间的差值均小于等于设置的两公交站点间的最大运行时间差值,即:

|JYSJk,z‑JYSJk+1,z|,|JYSJk+1,z‑JYSJk+2,z|,…≤Tjl                        (29)在式(29)中,Tjl为两公交站点间的最大运行时间差值;

则第kz,k+1z,k+2z,…个乘客均为在第z个站点上车的同一类乘客,且第一个到达第z个站点的乘客的刷卡时间为JYSJk,z,同理,到达第1,…,z,…,Z个站点的第一个乘客的刷卡时间分别为JYSJk,1,…,JYSJk,z,…,JYSJk,Z;

步骤503、计算任意两个相邻站点的第一个乘客的刷卡时间间隔与车辆GPS到站时间间隔之间差值的平均值Tavg:

计算标准偏差Tbzpc:

步骤504、计算Tavg和Tbzpc两个样本的t检验,并转换为差值序列总体均值是否为0的单样本t检验,因此有:

根据计算出的t值,通过SPSS计算出SIG值,当SIG<0.05时,则以95%的概率接受上车站点匹配的正确性,否则就不接受上车站点匹配的正确性。

7.根据权利要求1所述的多源数据挖掘的公交车上下车站点识别和检验方法,其特征在于:在所述步骤S5中,所述基于换乘行为识别的常规公交IC刷卡乘客下车站点识别检验具体包括如下步骤:

步骤601、对所研究地区的乘客换乘时间进行以横坐标为换乘时间、纵坐标为人数累积占比画出散点图并拟合,由此确定出随着换乘时间阈值的增大,识别的换乘中包含的偶然活动换乘所占的比例增加的阈值区间[Thcone,Thctwo],并将换乘时间阈值最终确定为:步骤602、判断第x天第k个乘客的第i条交易数据在站点编号z上车、站点编号z+e下车的数据之后是否存在第i+1条交易数据,若是,则进入步骤603;若否,则进入步骤604;

步骤603、第i+1条交易数据的上车站点UPstationk,i+1与第x天第k个乘客的第i条交易数据的下车站点DOWNstationk,i的曼哈顿距离为:L(UPstationk,i+1,DOWNstationk,i)            (34)当式(34)满足式(35)和式(36)时:L(UPstationk,i+1,DOWNstationk,i)

则第x天第k个乘客的第i条交易数据的下车站点匹配正确,之后进入步骤604;

当式(34)不满足式(35)和式(36)时,则第x天第k个乘客的第i条交易数据的下车站点匹配不正确,之后进入步骤604;

步骤604、判断第k个乘客的交易数据是否均已经检验下车站点的正确性,若是,则进入步骤605;若否,则将未检验下车站点的数据作为第i条交易数据,并返回步骤602;

步骤605、判断第k个乘客是否为最后一个有下车站点未检验匹配正确性的乘客,若否,则将下一个有未检验下车站点匹配正确性的乘客作为第k个乘客,并返回步骤602;若是,则结束下车站点正确性的检验。