1.一种基于联邦学习的设备选择与资源分配方法,其特征在于:在移动边缘计算网络场景中,为降低工业物联网场景下联邦学习的通信开销,利用边缘服务器和云服务器对联邦学习中的设备选择以及链路带宽频谱资源进行最优分配,在每个边缘服务器中均部署有边缘控制器,所述边缘控制器上运行有相应的边缘智能体;在边缘服务器上计算损失值FS1:初始化参数:在集中训练阶段开始时,初始化所有边缘智能体的行动者和批评家网络的参数,并按照学习步骤进行更新,另外,一个经验回放池S2:经验抽样:采用基于经验回放技术的off-policy技术,部署一个具有一定内存容量的经验重放池,在采样阶段,所有边缘智能体的经验都存储在其中,在训练阶段,每个边缘智能体从经验池中随机抽取一批经验,以非策略的方式对网络参数进行训练;
S3:参数更新:在参数更新阶段,边缘智能体被协调起来,在从所有个体环境中收集的经验与当前代理的策略之间进行交替更新,并且基于初始经验池中采样的批量经验池中转化多维元组中更新参数;
S4:将步骤S3中更新完成的参数用于智能体目标网络更新,并获得全局最佳联合决策;
对于边缘智能体m,具体更新步骤如下:
步骤1)通过最小化损失函数L(φ
其中,
表示为目标Q值,其中
其中,▽表示梯度计算;α
步骤2)通过策略梯度方法对行动者网络进行更新,目标函数定义为:其中,策略函数通过FCNN网络重新参数化表示为
其中ε
步骤3)采用FCNN来自动设定最大熵目标的权值α
其中为
采用软更新方法,从评价批评家的参数φ
φ′
其中τ∈(0,1)为更新因子。
2.根据权利要求1所述的一种基于联邦学习的设备选择与资源分配方法,其特征在于:步骤S1中,各个所述边缘智能体分别在其对应的边缘控制器上运行,采用集中训练,分散执行的机制,每个边缘智能体只能从它所处的个体环境中观察到本地环境状态信息,包括自身在可用时延限制下的剩余可用值和剩余能耗,边缘智能体所做的决策对其他边缘智能体是不敏感的。
3.根据权利要求2所述的一种基于联邦学习的设备选择与资源分配方法,其特征在于:在集中训练阶段,所述边缘智能体相互获取其他边缘智能体的信息,包括所有边缘智能体的状态和动作;边缘智能体的行动者网络仅从自身观察到的本地环境状态信息中捕获环境动态,然后针对单个环境做出决策;边缘智能体的批评家网络通过所有边缘主体的行为-状态对来生成Q值来评估决策;在去中心化执行阶段,边缘智能体的行动者和批评家的网络参数不再更新。
4.根据权利要求1所述的一种基于联邦学习的设备选择与资源分配方法,其特征在于:步骤S2中,边缘智能体的经验用所选动作、状态转移和反馈奖励的多维元组表示,并由以下步骤得到:S21:每个边缘智能体分别从各自的环境中观察本地环境状态信息,包括自身在可用时延限制下的剩余可用值和剩余能耗;
S22:边缘智能体的行动者网络根据本地环境状态信息独立地用自己的策略生成决策;
S23:边缘智能体获得奖励,并且个体环境演化到下一个状态;
S24:将公式化的转换元组存储在经验回放池中,用于算法参数更新。
5.根据权利要求1所述的一种基于联邦学习的设备选择与资源分配方法,其特征在于:步骤S3中,采用最大熵强化学习方法,其要求行动者网络同时最大化期望和策略分布的熵,在保证任务成果的同时希望策略尽可能的随机;
每个边缘智能体的行动者-批评家体系结构由一个行动者网络、一对评价批评家网络和一对目标批评家网络组成;行动者网络用自己的策略生成动作,批评家网络分别计算一对Q值来评估所述行动者网络的策略。
6.根据权利要求1所述的一种基于联邦学习的设备选择与资源分配方法,其特征在于:每个边缘智能体的马尔科夫过程定义为一个多元组Μ=<S,A,P,R>,其中S代表状态空间,A是动作空间,P表示不同状态之间的转移概率,R表示奖励函数;使用权值参数θ状态空间S表示为
动作空间A表示为
当边缘智能体根据观察到的设备状态s
其中,t表示边缘端聚合次数,t
首先,在边缘服务器上计算的损失值F