1.一种基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,包括:S1:根据车辆自身传输速率、可用计算资源大小以及车辆位置设定时隙t的系统状态、动作以及奖励;
S2:根据时隙t的系统动作对参与训练的车辆进行选择,得到被选择的车辆;
S3:所述被选择的车辆利用本地数据进行本地训练得到对应的本地模型;
S4:考虑训练时延和传输时延对车辆训练出的本地模型造成的迟滞性影响,对本地模型进行权重优化,得到权重优化后的本地模型;
S5:训练完的车辆将权重优化后的本地模型异步上传到路边单元处进行异步联邦聚合,通过多轮重复训练,最终路边单元得到全局模型。
2.根据权利要求1所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,步骤S1中,根据车辆自身传输速率、可用计算资源大小以及车辆位置设定时隙t的系统状态、动作以及奖励包括:所述设定时隙t的系统状态为:
s(t)=(Tr(t),μ(t),dx(t),a(t‑1))其中,s(t)为时隙t的系统状态,Tr(t)表示所有车辆在时隙t各自的传输速率的集合,μ(t)为所有车辆在时隙t各自的可用计算资源的集合,dx(t)为所有车辆在时隙t各自沿x轴的位置坐标的集合,a(t‑1)为时隙t‑1的系统动作;
所述设定时隙t的系统动作为:
a(t)=(λ1(t),λ2(t),…,λK(t))
其中,a(t)为时隙t的系统动作,λi(t),i∈[1,K]表示选择车辆i的概率,令λ1(0)=λ2(0)=…=λK(0)=1;
所述设定时隙t的系统奖励为:
其中,r(t)为时隙t的系统奖励,ω1和ω2为非负的权重因子,adi(t)为时隙t的系统动作,λi(t),i∈[1,K]表示选择车辆i的概率,Loss(t)为异步联邦训练中计算的损失值, 为车辆i本地训练所产生的时延, 为车辆i在时隙t上传本地模型的传输时延。
3.根据权利要求2所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,步骤S2中,根据时隙t的系统动作对参与训练的车辆进行选择,得到被选择的车辆包括以下步骤:S21:设定集合ad(t)=(ad1(t),ad2(t),…,adK(t));
S22:将λi(t)进行归一化处理,设定λi(t)取值大于等于0.5的对应adi(t)记为1,否则为
0,最终得到的集合ad(t)由0跟1组成,1表示选择车辆,0表示不选择车辆。
4.根据权利要求2所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,基于时隙t的系统奖励,系统的期望长期折扣奖励可以表示为:其中,γ∈(0,1)为折扣因子,N为总时隙数,μ为系统的策略,J(μ)为系统的期望长期折扣奖励。
5.根据权利要求1所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,步骤S3中,所述被选择的车辆利用本地数据进行本地训练得到对应的本地模型包括以下步骤:S31:在时隙t下,车辆Vk从路边单元处下载全局模型wt‑1,其中,在时隙1,路边单元处的全局模型使用卷积神经网络初始化为w0;
S32:车辆Vk基于卷积神经网络对本地数据进行训练,其本地训练由l轮组成,在第m(m∈[1,l])轮本地训练中,车辆Vk首先将每个本地数据a的标签概率即ya输入到本地模型wk,m的卷积神经网络中,然后得到卷积神经网络对每个数据的标签的预测概率 采用交叉熵损失函数计算wk,m的损失值,计算公式如下:S33:使用随机梯度下降算法更新本地模型,公式如下:
其中, 为fk(wk,m)的梯度,η为学习率;
S34:车辆Vk使用更新后的本地模型进行m+1轮本地训练,当本地训练轮次达到l时本地训练停止,车辆获得更新后的本地模型wk。
6.根据权利要求1所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,步骤S4中,所述训练时延为:其中, 为车辆i本地训练所产生的时延,C0为训练一个数据所需要的CPU周期数,μi为车辆i的计算资源,用CPU周期频率来衡量,每辆车i(1≤i≤K)都携带不同的数据量Di。
7.根据权利要求1所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,步骤S4中,所述传输时延为:di(t)=‖Pi(t)‑Pr‖
其中, 为车辆i在时隙t上传本地模型的传输时延,|w|为每辆车本地训练得到的本地模型大小,tri(t)为t时隙车辆i的传输速率,B为传输带宽,p0为每辆车的发送功率,为2
定值,hi(t)为t时隙的信道增益,α为路径损耗指数,σ为噪声功率,车辆i在时隙t的位置Pi(t)设置为(dix(t),dy,0),其中dix(t)和dy分别为在时隙t车辆i沿x轴和y轴距离路边单元的天线的位,dy为一个固定值,dix(t)=di0+vt,di0为车辆i的初始位置沿x轴的坐标,v为车辆速度,t为时隙,将路边单元的天线高度设置为Hr,则路边单元的天线位置表示为Pr=(0,0,Hr)。
8.根据权利要求7所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,采用自回归模型来构建hi(t)和hi(t‑1)之间的关系,即:其中,ρi为连续时隙之间的归一化信道相关系数,e(t)为服从复高斯分布的误差向量并且与hi(t)相关,根据杰克衰落频谱, 其中J0(·)为第一类零阶贝塞尔函数并且 为车辆i的多普勒频率, Λ为波长,θ为移动方向即x0=(1,0,0)和上行通信方向即Pr‑Pi(t)之间的夹角,因此
9.根据权利要求1所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,步骤S4中,对本地模型进行权重优化的方法为:对本地模型进行权重优化,所述权重包括训练权重和传输权重,所述训练权重为:其中,β1,k为训练权重,m1∈(0,1)为参数,其使β1,k随着本地训练时延增加而减小,为车辆Vk的本地计算时延;
所述传输权重为:
其中,β2,k(t)为传输权重,m2∈(0,1)为参数,其使β2,k(t)随着传输时延增加而减小,为车辆Vk的传输时延;
根据公式wkw=wk*β1,k*β2,k,得到权重优化后的本地模型;
其中,wk为本地模型,wkw为权重优化后的本地模型,β1,k为训练权重,β2,k(t)为传输权重。
10.根据权利要求9所述的基于DDPG算法选择车辆的异步联邦优化方法,其特征在于,步骤S5中,训练完的车辆将权重优化后的本地模型异步上传到路边单元处进行异步联邦聚合,通过多轮重复训练,最终路边单元得到全局模型具体包括:当车辆Vk将权重优化后的本地模型上传到路边单元后,路边单元就进行一次全局聚合,其公式如下:wnew=βwold+(1‑β)wkw
其中,wold为路边单元处当前的全局模型,wnew为更新后的全局模型,wkw为权重优化后的本地模型,β∈(0,1)为聚合比例;
在每个时隙最开始路边单元收到第一个上传的本地模型时,wold=wt‑1,当路边单元接收到所有被选择车辆的本地模型并得到更新K1次后的全局模型wt后该时隙的全局模型更新结束。