1.一种D2D通信的直接接入方法,其特征在于:该方法包括以下步骤:
S1:将基站作为智能体,初始化状态st,动作at表示为不同D2D对发射功率的组合;
S2:智能体根据ε‑greedy策略选择一个动作at与环境交互;
S3:智能体执行动作at后,Wi‑Fi将本地信息以广播的方式传递给智能体;
S4:智能体根据WiFi的反馈信息,获得动作at的奖励r(st,at),环境生成下一个状态st+1,存储数据{st,at,rt,st+1}到经验回放空间中;
S5:采用经验回放策略,以降低数据间的相关性,从经验回放空间中随机抽取H个数据,计算Q‑network的预测值和目标值;
S6:使用梯度下降法,更新Q‑network_local的权重参数θ和Q‑Network_target的网络‑权重参数θ;
S7:重复步骤S2~S6,直到奖励曲线和吞吐量曲线收敛,得到最优的使用免授权频谱的D2D设备及其最优的发射功率;
在步骤S1中,场景中有N对D2D对,L个WiFi用户,免授权频谱带宽为B,D2D设备采用正交频分多址接入,子信道带宽为Bu=B/N,D2D之间没有干扰,将基站作为智能体,在t时刻,智能体的动作表示为at=[P1,P2,P3…PN],Pi为D2D对i发射端的发射功率,Pi∈{0,Pmin,Pmin+Δ,Pmin+2Δ,Pmin+3Δ,Pmax},Δ=(Pmax‑Pmin)/4,Pmax和Pmin分别为D2D最大和最小发射功率,状态st={M,RD,RW},其中M∈{0,1,2…L}为受到干扰的WiFi用户个数, 为D2D系统总吞吐量,Ri(P)表示D2D对i以功率P发送数据时的吞吐量,Ri(P)∈{Ri(0),Ri(Pmin),Ri(Pmin+Δ),Ri(Pmin+2Δ),Ri(Pmin+3Δ),Ri(Pmax)}, 为WiFi系统的总吞吐量, 为受到干扰的WiFi用户个数为l时的WiFi总吞吐量,l∈{1,2,3…M};
在步骤S2中,智能体使用ε‑greedy策略从动作集合中选择动作at,即智能体以概率ε从*动作集合中随机抽取一个动作与环境交互,以概率1‑ε选择通过最优动作价值函数Q (st,*at)估计的具有最大价值的动作 与环境交互,由于最优动作价值函数Q
*
(st,at)极难获取,因此本发明使用深度Q网络(DeepQ‑Network,DQN)将Q (st,at)近似为Q(st,at;θ),ε‑greedy策略的具体公式如下:本发明采用的ε‑greedy策略与传统的ε‑greedy策略不同,在训练开始时将ε设置为1,随着训练步数的增加,ε线性下降直到设置的最小值,这能保证智能体探索到更好的动作,防止陷入局部最优,意味着随着学习的进展,智能体逐渐使用学到的知识进行更好的操作;
在步骤S3中,AP周期性的广播WiFi网络的一些信息,包括受到D2D通信干扰的WiFi用户个数M、WiFi系统吞吐量、WiFi设备的信道状态信息以及WiFi设备位置;基站对接收到的广播信息进行分析,获得D2D通信对WiFi网络的干扰情况,当AP处于D2D的干扰范围内时,AP不能正确接受所有来自WiFi用户的信号,无法通过M来反映干扰,此时WiFi网络处于瘫痪状态,吞吐量为0,添加此状态的广播信息,记为Φ=1,反之Φ=0,作为智能体的基站根据上述AP广播的信息选取D2D对接入免授权频谱以及调整D2D的发射功率,AP广播信号的周期对应智能体的一步训练步数,即AP在智能体的决策时刻广播信号;
在步骤S4中,当智能体执行动作at与环境交互后,环境生成下一个状态st+1,智能体获取动作at的奖励r(st,at),并将数据{st,at,rt,st+1}存储到经验回放空间中,奖励函数的定义为:其中Rtotal是共存系统的总吞吐量,为D2D系统总吞吐量RD与WiFi系统总吞吐量RW之和,M0是D2D通信干扰的WiFi用户个数阈值,Rdi是动作at中任意一对D2D的吞吐量,Rd是单对D2D的吞吐量阈值,奖励函数说明只有D2D通信对WiFi网络的干扰被限制在设定的范围内,同时保证D2D设备的通信质量,动作at才会有奖励,基站通过分析AP的广播信号获得m、RW和Φ,Rdi在基站和D2D设备信息交互时被基站获得,D2D系统总吞吐量 ;
在步骤S5中,智能体从经验回放空间中随机抽取H个{sk,ak,rk,sk+1}数据,计算Q‑Network_local的预测值qk和Q‑Network_target目标值的yk,qk和yk的表达式为:qk=Q(sk,ak;θ)
‑
yk=rk+γmaxa′Q′(sk+1,a′;θ)
其中γ为折扣率,γ越小代表智能体越关注当前回报,反之同理;
在步骤S6中,获得预测值qk和目标值yk后,通过以下损失函数计算损失:
损失通过神经网络反向传播,使用梯度下降法来更新Q‑Network_local的网络权重参‑ ‑数θ,经过设定的训练步数后,更新Q‑Network_target的网络权重参数θ,更新公式为:θ=τ‑θ+(1‑τ)θ,其中τ为软间隔更新系数,且0<τ<<1,τ越小,算法会越稳定,Q‑network_target的参数变化越小,算法收敛速度会越慢,反之同理;
调试各种超参数,包括学习率、折扣率、抽样样本大小、经验回放池大小、ε、神经网络层数及其神经元个数;重复智能体与环境的交互过程,即步骤2~步骤6,直至奖励函数曲线、D2D系统总吞吐量曲线、WiFi系统总吞吐量曲线经训练达到收敛状态,收敛状态时智能体执行的动作即为最优动作,由步骤S1中动作的定义可知最优接入免授权频谱的D2D对以及其最优发射功率。