1.一种异构蜂窝网络D2D通信资源分配方法,其特征在于,步骤如下:
在构建的异构蜂窝网络中引入毫米波频段用于D2D用户的通信,构建蜂窝通信模式和毫米波通信模式;
计算不同通信模式下蜂窝用户和D2D用户接收到的干扰功率、信噪比与传输速率,并根据干扰功率、信噪比和传输速率建立D2D用户的效用函数;
在满足蜂窝用户和D2D用户服务质量需求的情况下,利用构建的深度强化学习模型,根据D2D用户的当前状态,以D2D用户的效用最大化为目标进行D2D用户的通信模式和信道的选择;
所述D2D用户的效用函数,具体为:
其中,定义二进制变量δd,当δd=1时,D2D用户利用蜂窝频段通信,否则δd=0利用毫米波频段通信,ρd>0是单位传输速率的收益,λd是单位传输功率的价格, 为D2D用户利用蜂窝频段通信时的传输功率, 为D2D用户利用毫米波频段通信时的传输功率, 为D2D用户接收到来自复用同一信道的蜂窝用户和其他D2D用户的干扰时的传输速率, 为D2D用户接收到来自共用同一毫米波频段的其他D2D用户的干扰时的传输速率,Pout:d,d表示在毫米波模式中D2D用户d的发送器和接收器之间的视线(LOS)路径中的阻塞概率;
所述深度强化学习模型为用于D2D资源分配的分布式多智能体深度强化学习模型,具体构建方法为:针对预设时隙,定义状态空间、行动空间和奖励函数;
在预设时隙内,D2D用户作为智能体,从状态空间中观察到一个状态,然后根据策略和当前状态从动作空间中选择一个动作,所述动作为D2D用户选择合适的通信模式和信道;
然后执行动作,并转移到新的状态,并得到一个奖励值,智能体根据获得的奖励值调整策略,逐步收敛以获得最优奖励;
所述分布式多智能体深度强化学习模型引入经验回放机制,具体为:把每次迭代智能体和环境交互得到的经验样本数据存储到经验池中,当需要进行网络训练时,从经验池中随机抽取小批量数据进行训练;
所述奖励函数具体为:
其中,Φd>0表示D2D用户的动作选择成本, 为预设时隙内的D2D用户的效用函数。
2.如权利要求1所述的异构蜂窝网络D2D通信资源分配方法,其特征在于,所述异构蜂窝网络包括至少一个基站、多个蜂窝频段、与蜂窝频段个数相同的蜂窝用户、多个D2D用户以及多个毫米波频段。
3.如权利要求1所述的异构蜂窝网络D2D通信资源分配方法,其特征在于,所述D2D用户只能选择一种通信模式下的一条信道进行通信;如果D2D用户选择在蜂窝模式下通信,则D2D用户共享一个蜂窝用户的上行链路,每个蜂窝用户占用一条信道,每条信道可被多个D2D用户复用,其中蜂窝上行通信链路采用正交频分复用技术;如果D2D用户选择在毫米波通信模式下通信,D2D用户占用毫米波频段中的一个频段进行通信。
4.如权利要求1所述的异构蜂窝网络D2D通信资源分配方法,其特征在于,异构蜂窝网络系统中D2D用户的传输速率,具体为:
5.如权利要求4所述的异构蜂窝网络D2D通信资源分配方法,其特征在于,蜂窝用户和D2D用户的最小服务质量约束为:SINRc为蜂窝用户接收到来自与蜂窝用户复用同一信道的D2D用户的干扰时的信噪比,为D2D用户接收到来自复用同一信道的蜂窝用户和其他D2D用户的干扰时的信噪比, 为D2D用户接收到来自共用同一毫米波频段的其他D2D用户的干扰时的信噪比。
6.一种异构蜂窝网络D2D通信资源分配系统,其特征在于,包括:
蜂窝网络构建模块,被配置为:在构建的异构蜂窝网络中引入毫米波频段用于D2D用户的通信,构建蜂窝通信模式和毫米波通信模式;
数据处理模块,被配置为:计算不同通信模式下蜂窝用户和D2D用户接收到的干扰功率、信噪比与传输速率,并根据干扰功率、信噪比和传输速率建立D2D用户的效用函数;
资源分配模块,被配置为:在满足蜂窝用户和D2D用户服务质量需求的情况下,利用构建的深度强化学习模型,根据D2D用户的当前状态,以D2D用户的效用最大化为目标进行D2D用户的通信模式和信道的选择;
所述D2D用户的效用函数,具体为:
其中,定义二进制变量δd,当δd=1时,D2D用户利用蜂窝频段通信,否则δd=0利用毫米波频段通信,ρd>0是单位传输速率的收益,λd是单位传输功率的价格, 为D2D用户利用蜂窝频段通信时的传输功率, 为D2D用户利用毫米波频段通信时的传输功率, 为D2D用户接收到来自复用同一信道的蜂窝用户和其他D2D用户的干扰时的传输速率, 为D2D用户接收到来自共用同一毫米波频段的其他D2D用户的干扰时的传输速率,Pout:d,d表示在毫米波模式中D2D用户d的发送器和接收器之间的视线(LOS)路径中的阻塞概率;
所述深度强化学习模型为用于D2D资源分配的分布式多智能体深度强化学习模型,具体构建方法为:针对预设时隙,定义状态空间、行动空间和奖励函数;
在预设时隙内,D2D用户作为智能体,从状态空间中观察到一个状态,然后根据策略和当前状态从动作空间中选择一个动作,所述动作为D2D用户选择合适的通信模式和信道;
然后执行动作,并转移到新的状态,并得到一个奖励值,智能体根据获得的奖励值调整策略,逐步收敛以获得最优奖励;
所述分布式多智能体深度强化学习模型引入经验回放机制,具体为:把每次迭代智能体和环境交互得到的经验样本数据存储到经验池中,当需要进行网络训练时,从经验池中随机抽取小批量数据进行训练;
所述奖励函数具体为:
其中,Φd>0表示D2D用户的动作选择成本, 为预设时隙内的D2D用户的效用函数。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1‑5任一项所述的异构蜂窝网络D2D通信资源分配方法中的步骤。