欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020100643302
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 信号装置
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于3DQN_PSER算法的单交叉口信号控制方法,其特征在于,包括如下步骤:(1)对城市道路交叉口各进口道卡口电警的过车数据进行统计;

(2)对步骤(1)采集到的流量数据进行预处理,根据车牌号匹配的方法消除重复数据,并对缺失数据,按照短期内流量的时序相关性,采取前后流量数据的均值进行修复;

(3)基于步骤(2)得到的各车道流量数据,生成OD矩阵,配置对应的路由数据文件,并根据实际交叉口拓扑结构生成路网文件,基于需要探测的车辆运行状态配置车道区域探测器;

(4)通过离散交通状态编码技术设计路口的车辆动态流信息,组装成三维张量输入,并根据不同流向当前的信号状态,设计一维数组表示作为另一输入;

(5)将相位方案库离散化,作为动作集合A,引入动作奖惩系数δ来满足相位最小最大绿灯时间约束,对信号灯状态转变进行设计以实现相位过渡;所述步骤(5)中,列举出所有无冲突情况下的相位方案库,信号智能体在每个决策点都会从动作方案集合A={0,1,2,3,4,

5,6,7}中选择一种相位方案;如果选择的动作和当前相位方案相同,则执行当前绿灯相位τg秒,否则,需要先执行过渡相位τy秒,其中过渡相位指黄灯相位;根据在决策点的选择会执行对应的相位方案;其中,根据相位最小绿灯时间和最大绿灯时间,设计了动作奖惩系数,并将其引入最终Q值的计算;动作奖惩系数如下所示:其中,其中,Gmin和Gmax分别表示最小绿灯时间和最大绿灯时间,Φ为奖惩尺度,取值需要结合奖励分布情况来设计;p1和p2表示相位方案中两流向的绿灯时间,且本式前提为p1<p2;

在相位方案切换的过程中,会涉及信号灯灯色状态的转移,若当前信号灯执行方案一,由流向2和流向5组成,下一决策点选择的动作仍是方案一,则会继续执行当前方案τg秒;若下一决策点执行的动作是方案二,则在切换到方案二相位之前,会先执行对应的过渡相位τy秒,根据前后决策点的相位方案不同,执行的过渡相位也有所不同,若下一决策点执行方案五动作,则会保持流向2绿灯,而流向5变成黄灯过渡相位;

(6)对排队长度rqueue、累计等待时间rwaitTime、刹车次数rhalting和相位是否切换rphase四个指标进行系数加权,作为信号智能体的奖励函数;具体步骤如下:(6.1)各车道在该决策点的排队长度之和rqueue;

(6.2)相邻决策点之间的累计等待时间之差rwaitTime,若当前处于决策点k+1,此时的累计等待时间rwaitTime=Wk+1-Wk,如果rwaitTime<0,表明这段时间路网比之前畅通,反之则表明路网拥堵加重,此外等待时间是根据车辆的速度是否低于0.1m/s来判定的;

(6.3)各车道在该决策点的刹车数量之和rhalting;

(6.4)当前决策点选择的动作是否会导致相位切换rphase,如果切换的话rphase=1,没有切换的话rphase=0;

(6.5)综合以上指标,并结合相应的权重系数k1,k2,k3,k4,加权得到最终的奖励:r=k1*rqueue+k2*rwaitTime+k3*rhalting+k4*rphase;

(7)基于以线为单位来调整一定范围内样本数据优先级的优先序列经验重放的方法,并结合Double DQN和Dueling DQN来优化深度Q学习算法,基于Adam优化器,并采用均方差作为损失函数,反复更新网络模型参数,寻找得到最优的配时方案;所述步骤(7)中,利用Double DQN和Dueling DQN技术来调整Q值的选择以及局部网络结构,经过以上调整后,Q值的更新函数如下:式中,Q(s,a;θ,α,β,δ)=Q(s,a;θ,α,β)+δ

其中,θ和θ-分别表示主网络和目标网络参数,α和β表示经Dueling调整后,全连接层两支流的参数,s′表示下一个状态,γ表示折扣系数,指的是即时奖励和累计未来奖励之间的衰减情况,δ为动作奖惩系数;考虑到短期内交通流和信号方案相互依赖,以及数据自身特性,采用优先序列经验重放的方法来更新序列样本的优先级,即以“线”为单位来调整一定范围内的样本优先级,并使用均方差作为损失函数:其中,B表示取样个数,wj为样本j重要性采样权重系数;

通过梯度下降法将误差反向传播,并更新一轮网络模型参数,当奖励值收敛到稳定值,便得到最佳的信号配时方案;

所述更新规则如下:

pt-1=max(ρ1pt,pt-1)

pt-2=max(ρ2pt,pt-2)

3

pt-3=max(ρpt,pt-3)

...

pt-(W-1)=max(ρ(W-1)pt,pt-(W-1))

其中,ρ为衰减系数,用来相邻决策点之间优先级影响程度;pt是索引t的样本优先级,指估计Q值和实际Q值之间差的绝对值,称为TD-error,其计算公式如下:pt=|Yt3DQN-Q(s,a;θ,α,β,δ)|+o

其中,o是一个常数,为了避免优先级为零,设为0.0001。

2.根据权利要求1所述的一种基于3DQN_PSER算法的单交叉口信号控制方法,其特征在于:所述步骤(1)具体为:基于城市道路交叉口安装的卡口和电子警察视频检测系统,收集单交叉口的流量数据记录,按照分钟为单位时间对记录进行处理,根据车辆唯一标识,即车牌号,统计各进口道的过车数量;其中每条记录包含如下信息:device_ID、intersection_name、cameraposition、turnID、roadID、time。

3.根据权利要求1所述的一种基于3DQN_PSER算法的单交叉口信号控制方法,其特征在于:所述步骤(4)具体为:(i)采用离散交通状态编码技术,将进口道从停车线位置开始划分成若干网络,并以网格内的车辆位置和速度信息组装成状态s,对于有H个进口道的典型四岔路口,状态空间大小是由该路口各进口道的网格信息确定,记为H×(L/c)×Y,其中,Y表示刻画交通状态的指标数目,L表示进口道检测器探测的区域长度;将该路口车辆的分布位置和对应未知的速度组装成三维张量;

(ii)针对典型四岔路口的8个流向,设计一维数组作为信号灯状态,若信号灯当前执行某相位方案,其信号灯状态可能是[1,0,0,0,1,0,0,0],其中1表示某流向为绿灯信号,该数组作为算法模型的另一状态输入信息,通过全连接层的处理,再与经过三层卷积处理的交通流状态信息结合,然后进行一系列全连接层处理。