1.一种基于平均场的智能非授权频谱接入方法,其特征在于:该方法包括以下步骤:S1:初始化环境参数和智能体参数;
S2:初始化每个智能体的状态和经验回放机制RB;
S3:根据Bolzmann策略产生动作
S4:在后续βE个执行周期中执行动作at,收到环境反馈rt并更新状态至st+1;
S5:各节点之间进行信息交换;
S6:将转移样本 存储到经验回放机制RB;
S7:从经验回放机制RB中随机抽取H个转移样本更新Q‑网络;
S8:训练终止,每个智能体得到最优接入策略;
在步骤S1中,环境被定义为智能体交互的外部实体,故环境参数包括WiFi接入点的退避参数以及提出的接入框架的时间参数;在接入框架中,时间资源以不同时间尺度划分为两个层次,上层以大时间尺度描述了信息交换和智能体决策推理的过程,具体而言,时间资源被划分为若干个反馈周期TF,每个反馈周期又包含若干个TE,SBSs与WAPs的信息交换以TF为周期,每个SBS根据自身策略和收到的信息产生动作,随后在当前反馈周期包含的执行周期中执行动作,在下层,执行周期TE被进一步化分为更小的细粒度,来适应SBSs和WAPs的协议,具体而言,TE被划分为若干个子帧TSF,即SBSs调度的基本单位,TSF又被进一步划分为若干个时隙TS,即WAPs发送包长的基本单位,综上所述,TF=βETE,TE=βSFTSF,TSF=βSTS,βE、βSF和βS是整数;具体而言,需要设置的退避参数包括初始窗口大小CW,WiFi接入点包长TW和最大退避阶数m,需要设置的时间参数包括βE、βSF和βS;智能体参数包括Bolzmann策略中T0,经验回放机制大小以及智能体中神经网络训练参数;在步骤S2中,在正式训练过程开始之前,需要初始化每个智能体的状态st;状态st是一个全局变量,被定义为:其中ft为时刻t时共存网络的公平性指数,其表达式为:
式中,K表示共存网络中WAP的数目,N表示共存网络中SBS的数目, 和分别表示时刻t∈(t‑TF,t]中第i个WAP和第i个SBS的吞吐量,其表达式分别定义为: 式中, 和 分别表示第i个WAP和第
i个SBS在当前反馈周期传输的包长或帧长,故吞吐量含义为在反馈周期TF中成功发送的包长或帧长所占据TF的比例;此外,每个智能体包含一个经验回放机制RB,用于存储过往的经验样本以便Q‑网络的训练,RB是一个有限大小的队列形式存储器,需要预先设定其大小;在步骤S3中,智能体根据当前状态st和Bolzmann策略选择接下来将要执行的动作;Bolzmann策略表达式为:式中,Q(s,a)表示动作价值函数,即在当前状态s中选择动作a带来的价值大小,用于衡量动作的好坏, 表示当前温度,T0和N分别表示初始温度和相应动作被选择的次数,T随这训练迭代逐步减小,表明在训练刚开始时,智能体对于环境探索不足,故倾向于随机执行动作对环境进行探索;随着训练次数增加,智能体逐步倾向于利用习得的知识来做出动作选择;此外,动作定义为:at=[ATt,TXt]
式中,ATt∈{0,TSF,2TSF,...,NTSF}表示接入时刻,为SBS基本传输单位子帧TSF的整数倍;TXt∈{TSF,2TSF,...,MTSF}表示接入后的传输时长,为SBS基本传输单位子帧TSF的整数倍;智能体需要学习到一个控制策略,该策略可以指导智能体在当前状态下何时接入以及接入后传输多久;在步骤S4中,每个智能体将在后续βE个执行周期TE中重复地执行动作,这样做能让智能体从更大的时间尺度观察到环境动态,即流量模式的变化,从而在计算rt和st+1以及评估动作价值Q(st,at)更加准确,学习收敛更快;奖励值rt的表达式为:式中,共存网络总吞吐量 被定义为:
奖励的定义遵循我们追求的目标,即最大化共存网络的总吞吐量并确保公平性,单方面地增加吞吐量或公平性只会带来较小的奖励值,仅当吞吐量和公平性同时增加才能带来较大的奖励值;在步骤S5中,结点在每个反馈周期的最后一个执行周期进行信息交换,以获取其余结点的吞吐量和动作信息,利用前者计算总吞吐量、公平性和奖励,利用后者来计算平均场理论中平均动作;具体而言,平均场理论用于保证多智能体环境中强化学习算法的收敛和降低计算复杂度;首先Q‑函数分解开始:k
其中N(k)是相邻智能体的索引集合,其尺寸N=|N(k)|取决于不同的应用设定;a表示所有智能体的联合动作;上式表示第k个智能体的用于衡量联合动作价值的Q‑函数近似为与相邻智能体交互的平均价值;随后,第k个智能体相邻智能体的平均动作可以为:j
其中 可以理解为相邻智能体动作的经验分布;此外,对于相邻智能体j,其动作a 可以表示为平均动作 加上一个扰动项δj,k:k j j
根据泰勒公式,当Qk(s,a,a)关于a二阶可微时,Qk(s,a)可以表示为:式中可知∑kδj,k=0, 是泰勒多项式余项且
j
事实上,Rk(a)在一定条件下可证明为接近于0的小扰动
项,故能省略;至此,我们已经智能体k的Q‑函数分解 注意到Q‑函数中联合动作维度不再随智能体个数的增加呈指数增长,而与智能体个数无关这可以大大地降低算法的计算复杂度;此外,我们只需考虑当前时刻t的相邻智能体动作,而无需考虑历史行为;经过近似后的平均场Q‑函数的更新规则如下:其中,平均场价值函数 计算如下:
。
2.根据权利要求1所述的一种基于平均场的智能非授权频谱接入方法,其特征在于:在步骤S6中,智能体将一次与环境交互所产生的转移样本 存储至RB;若RB已满,则会根据队列性质,将旧样本从队头弹出,新样本由队尾加入。
3.根据权利要求1所述的一种基于平均场的智能非授权频谱接入方法,其特征在于:在步骤S7中,智能体从RB中随机抽取批量为H的样本,对损失函数采用梯度下降法更新Q‑网络权重;其中损失函数定义基于均方误差:式中,yj表示目标值,由目标Q‑网络Q′(·)参与计算得到,其定义为:每次迭代通过梯度下降算法最小化损失函数,Q‑网络的权重得以更新,智能体的策略也得以改善。
4.根据权利要求1所述的一种基于平均场的智能非授权频谱接入方法,其特征在于:在步骤S8中,当训练次数达到预期次数时,每个智能体都学习到一个最优解,即最优接入方案。