1.一种基于深度强化学习的交通信号控制方法,包括如下步骤:(1)建立基于深度强化学习的交通信号控制模型,具体包括:s11.定义模型的状态;模型的状态st定义为时间步t时目标道路交叉口各个相位的平均车辆到达数和平均车辆速度,具体如下:其中,Ni表示时间步t时相位i中允许通行的车道数量, 和 分别表示时间步t时相位i下车道j的车辆到达数和平均车辆速度, 和 则分别表示时间步t时相位i的平均车辆到达数和平均车辆速度,相位i的取值范围为[1,P],P是一个信号周期内的相位数,时间步t的取值范围为[0,T‑1],T是一轮回合中的时间步数;因此,公式(1)和(2)定义的模型状
2P 2P
态空间为S∈R ,其中,R 表示由2P个向量组成的向量集合;时间步t时的交通状态为且st∈S;
s12.定义模型的动作;模型的动作at定义为时间步t时下一个信号周期的执行动作,而且每个信号周期只有一个执行动作,具体说来,对于包含P个相位的信号控制方案,相位顺序固定,则共有2P+1个可选动作,具体如下:其中,A表示可选动作集合,动作at∈A, 表示将下一信号周期中相位i的绿灯时间缩短5秒, 表示将下一信号周期中相位i的绿灯时间延长5秒,a0则表示下一信号周期的配时方案保持不变,i的取值范围为[1,P];
s13.定义模型的奖励值函数;模型的奖励值函数rt定义为时间步t时上一轮回合所有时间步的平均排队长度与当前时间步平均排队长度的差值,具体如下:其中,qk是上一轮回合中某个时间步的平均排队长度,qt是当前时间步t的平均排队长度;
s14.设计策略网络、旧策略网络和值函数网络;整个模型采用了行动者‑评论家框架,其中,策略网络和旧策略网络属于行动者模块,值函数网络属于评论家模块;策略网络、旧策略网络和值函数网络都包含三层神经网络,即输入层、中间层和输出层,中间层都是带线性整流激活函数的单层全连接层神经网络;策略网络采用了近端策略优化,其目标函数为:其中, 是时间步t时的数学期望估计,min()是最小值函数,rt(θ)是时间步t时新旧策略概率比率,具体如下:
其中πθ(at|st)表示策略网络中智能体在状态st下选择动作at的概率,代表智能体的当前策略,πθold(at|st)表示旧策略网络中智能体在状态st下执行动作at的概率,代表智能体的旧策略,θ和θold分别为策略网络和旧策略网络的参数,clip()是修剪函数,用于将rt(θ)的取值限定在[1‑ε,1+ε],ε是超参数,如果rt(θ)<1‑ε,则rt(θ)=1‑ε,如果rt(θ)>1+ε时,则rt(θ)=1+ε, 是时间步t时的优势函数估计,采用广义优势估计来计算,具体如下:其中,优势函数估计是按批进行处理,B是每批处理的轨迹数量,mod是取模运算,是通过值函数网络获得的预测值,表示智能体依据策略πθ从状态st出发获得的平均奖励,用于评估智能体状态st的好坏,γ∈[0,1]是折扣因子,用于体现时间延迟对于值函数估计值的影响,λ∈[0,1]是超参数,合理调整λ的取值能够有效平衡状态值函数的方差和偏差;策略网络的输入是道路交叉口状态st,输出是2P+1个动作的概率πθ(at|st);旧策略网络的输入也是道路交叉口的状态st,输出是2P+1个动作的概率πθold(at|st),旧策略网络无需训练,只需要定时复制策略网络参数;值函数网络的目标函数为:其中,公式(8)中 是智能体的累积奖励值,即状态值函数的真实值,是值函数网络的预测值,通过最小化二者的差值就可以逐步缩小真实值和预测值之间的差距;值函数网络的输入是道路交叉口的状态st,输出是状态值函数的估计值 为值函数网络参数;
(2)训练基于深度强化学习的交通信号控制模型,具体包括:s21.构建交通仿真环境;根据目标道路交叉口的交通环境和车辆流量数据,配置交通仿真软件,建立与目标道路交叉口相似的交通仿真环境,其中,车辆流量数据是指目标道路交叉口在一定时间段内各个车道的车辆流量数据;交通仿真软件负责模拟目标道路交叉口交通环境的运行,生成各个信号周期的交通状态信息;
s22.初始化交通信号控制模型;采用随机方法初始化策略网络、旧策略网络和值函数网络,并初始化算法参数,包括模型训练的最大回合数N、一轮回合中的时间步数T、每批处理的轨迹数量B、以及策略网络和值函数网络的迭代次数K;
s23.初始化训练回合数;训练回合数初始化为EP=1;
s24.初始化训练时间步数;训练时间步数初始化为t=0;
s25.运行旧策略网络采集轨迹;从交通仿真软件中依次采集目标道路交叉口的交通状态信息作为输入,运行旧策略网络生成相应的动作、奖励和轨迹,输出2P+1个动作的概率πθold(at|st),并计算t=t+1;如此循环,直至采集B个轨迹,即一批轨迹,然后执行下一步;
s26.计算优势函数估计并更新策略网络和值函数网络;基于步骤s25采集的B个轨迹,依次把目标道路交叉口的交通状态信息输入策略网络和值函数网络,分别获得2P+1个动作的概率πθ(at|st)和相应的状态值函数估计值 如此重复,直到处理完B个轨迹;然后,根据步骤s25采集的B个轨迹的奖励值和公式(7),计算优势函数估计 再根据公式(5)、(6)和(8),计算策略网络和值函数网络的训练误差,反向传递误差,进行K次迭代,更新策略网络和值函数网络参数;
s27.检查训练时间步数;如果t<T,则执行步骤s25,否则,把策略网络参数复制到旧策略网络,更新旧策略网络参数,完成一轮回合的训练,继续执行下一步;
s28.检查训练回合数;如果EP<N,则计算EP=EP+1,并执行步骤s24,开始新一轮回合的训练,否则,完成交通信号控制模型的训练,继续执行下一步;
(3)信号配时方案的生成和模型的持续优化;利用步骤(2)训练好的交通信号控制模型,以目标道路交叉口的当前交通状态信息为输入,基于旧策略网络选择相应的动作,生成下一个信号周期的信号配时方案并实施;同时,交通信号控制模型将在实际交通环境中继续进行训练和优化,模型的输入是实时的交通状态信息,当训练次数达到一批处理数量时,则重新计算优势函数估计,并更新策略网络和值函数网络,当训练次数达到一轮回合处理数量,则更新旧策略网络;如此不断循环,可以持续优化交通信号控制模型,更好地满足道路交叉口信号控制的要求。
2.如权利要求1所述的一种基于深度强化学习的交通信号控制方法,其特征在于:步骤s14中,ε的取值为0.2,γ的最佳取值范围为[0.96,0.99],λ的最佳取值范围为[0.92,
0.99]。