1.一种可防御拜占庭攻击的异步联邦优化方法,其特征在于,包括:配置可信数据集DRSU至路边单元;选择异步联邦聚合所需的车辆;
被选择的车辆从所述路边单元处下载全局模型,所述路边单元复制所述全局模型;
被选择的车辆利用本地数据训练下载的全局模型,得到车辆本地模型以及车辆损失值并将所述车辆本地模型以及车辆损失值 上传到路边单元;所述路边单元利用所述可信数据集DRSU训练复制的全局模型,得到路边本地模型以及路边损失值LRSU;
当车辆本地模型损失值 以及路边损失值LRSU满足 时,将所述车辆本地模型与全局模型联邦聚合,得到更新的全局模型,否则,舍弃所述所述车辆本地模型,并返回异步联邦聚合所需车辆的步骤;其中,βR为预设参数。
2.根据权利要求1所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,多次更新后得到训练完成的全局模型,训练全局模型过程中,多次选择异步联邦聚合所需的车辆包括:构建DDPG模型,所述DDPG模型包括系统奖励函数;
获取系统状态;
所述DDPG模型根据系统状态选择动作;
根据选择的动作选择异步联邦聚合所需的车辆;
所述DDPG模型根据车辆损失值 以及系统奖励函数输出奖励;
返回获取系统状态的步骤,直至所述全局模型训练完成;
其中,系统状态、动作以及奖励形成历史数据,车辆选择过程中,所述DDPG模型根据历史数据进行训练。
3.根据权利要求2所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,所述系统奖励函数为:其中,r(t)为时隙t的系统奖励,ω1和ω2为非负的权重因子,adi(t)为时隙t的系统动作,λi(t),i∈[1,K]表示选择车辆i的概率,Loss(t)为时隙t的车辆损失值, 为车辆i本地训练所产生的时延, 为车辆i在时隙t上传本地模型的传输时延,a(t)为时隙t的系统动作,s(t)为时隙t的系统状态。
4.根据权利要求3所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,基于时隙t的系统奖励,系统的期望长期折扣奖励可以表示为:其中,γ∈(0,1)为折扣因子,N为总时隙数,μ为系统的策略,J(μ)为系统的期望长期折扣奖励。
5.根据权利要求2所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,所述训练时延 根据以下公式确定:其中, 为车辆i本地训练所产生的时延,C0为训练一个数据所需要的CPU周期数,μi为车辆i的计算资源,用CPU周期频率来衡量,每辆车i(1≤i≤K)都携带不同的数据量Di。
6.根据权利要求2所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,所述传输时延 根据以下公式确定:di(t)=||Pi(t)‑Pr||
其中, 为车辆i在时隙t上传本地模型的传输时延,|w|为每辆车本地训练得到的本地模型大小,tri(t)为t时隙车辆i的传输速率,B为传输带宽,p0为每辆车的发送功率,为2
定值,hi(t)为t时隙的信道增益,α为路径损耗指数,σ为噪声功率,车辆i在时隙t的位置Pi(t)设置为(dix(t),dy,0),其中dix(t)和dy分别为在时隙t车辆i沿x轴和y轴距离路边单元的天线的位,dy为一个固定值,dix(t)=di0+vt,di0为车辆i的初始位置沿x轴的坐标,v为车辆速度,t为时隙,将路边单元的天线高度设置为Hr,则路边单元的天线位置表示为Pr=(0,0,Hr)。
7.根据权利要求1所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于:在得到车辆本地模型后,将所述车辆本地模型上传到路边单元之前,考虑训练时延和传输时延对车辆训练出的本地模型造成的迟滞性影响,对车辆本地模型进行权重优化,得到权重优化后的本地模型。
8.根据权利要求7所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,所述权重包括训练权重和传输权重,所述训练权重为:其中,β1,k为训练权重,m1∈(0,1)为参数,其使β1,k随着本地训练时延增加而减小,为车辆Vk的本地计算时延;
所述传输权重为:
其中,β2,k(t)为传输权重,m2∈(0,1)为参数,其使β2,k(t)随着传输时延增加而减小,为车辆Vk的传输时延。
9.根据权利要求7所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于:根据公式wkw=wk*β1,k*β2,k,得到权重优化后的车辆本地模型,其中,wk为车辆本地模型,Wkw为权重优化后的车辆本地模型,β1,k为训练权重,β2,k(t)为传输权重。
10.根据权利要求1所述的可防御拜占庭攻击的异步联邦优化方法,其特征在于,根据以下公式进行联邦聚合:Wnew=βwold+(1‑β)wkw
其中,wold为路边单元处当前的全局模型,Wnew为更新后的全局模型,Wkw为权重优化后的车辆本地模型,β∈(0,1)为聚合比例。