知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种D2D通信的直接接入方法

￥39700

专利号： 2022100366953

申请人：深圳市晨讯达科技有限公司

专利类型：发明专利

专利状态：已下证

专利领域：电通信技术

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种D2D通信的直接接入方法，其特征在于：该方法包括以下步骤：

S1：将基站作为智能体，初始化状态st，动作at表示为不同D2D对发射功率的组合；

S2：智能体根据ε‑greedy策略选择一个动作at与环境交互；

S3：智能体执行动作at后，Wi‑Fi将本地信息以广播的方式传递给智能体；

S4：智能体根据WiFi的反馈信息，获得动作at的奖励r(st,at)，环境生成下一个状态st+1，存储数据{st,at,rt,st+1}到经验回放空间中；

S5：采用经验回放策略，以降低数据间的相关性，从经验回放空间中随机抽取H个数据，计算Q‑network的预测值和目标值；

S6：使用梯度下降法，更新Q‑network_local的权重参数θ和Q‑Network_target的网络‑权重参数θ；

S7：重复步骤S2～S6，直到奖励曲线和吞吐量曲线收敛，得到最优的使用免授权频谱的D2D设备及其最优的发射功率；

在步骤S1中，场景中有N对D2D对，L个WiFi用户，免授权频谱带宽为B，D2D设备采用正交频分多址接入，子信道带宽为Bu＝B/N，D2D之间没有干扰，将基站作为智能体，在t时刻，智能体的动作表示为at＝[P1,P2,P3…PN]，Pi为D2D对i发射端的发射功率，Pi∈{0,Pmin,Pmin+Δ,Pmin+2Δ,Pmin+3Δ,Pmax}，Δ＝(Pmax‑Pmin)/4，Pmax和Pmin分别为D2D最大和最小发射功率，状态st＝{M,RD,RW}，其中M∈{0,1,2…L}为受到干扰的WiFi用户个数，为D2D系统总吞吐量，Ri(P)表示D2D对i以功率P发送数据时的吞吐量，Ri(P)∈{Ri(0),Ri(Pmin),Ri(Pmin+Δ),Ri(Pmin+2Δ),Ri(Pmin+3Δ),Ri(Pmax)}，为WiFi系统的总吞吐量，为受到干扰的WiFi用户个数为l时的WiFi总吞吐量，l∈{1,2,3…M}；

在步骤S2中，智能体使用ε‑greedy策略从动作集合中选择动作at，即智能体以概率ε从*动作集合中随机抽取一个动作与环境交互，以概率1‑ε选择通过最优动作价值函数Q (st,*at)估计的具有最大价值的动作与环境交互，由于最优动作价值函数Q

(st,at)极难获取，因此本发明使用深度Q网络(DeepQ‑Network，DQN)将Q (st,at)近似为Q(st,at；θ)，ε‑greedy策略的具体公式如下：本发明采用的ε‑greedy策略与传统的ε‑greedy策略不同，在训练开始时将ε设置为1，随着训练步数的增加，ε线性下降直到设置的最小值，这能保证智能体探索到更好的动作，防止陷入局部最优，意味着随着学习的进展，智能体逐渐使用学到的知识进行更好的操作；

在步骤S3中，AP周期性的广播WiFi网络的一些信息，包括受到D2D通信干扰的WiFi用户个数M、WiFi系统吞吐量、WiFi设备的信道状态信息以及WiFi设备位置；基站对接收到的广播信息进行分析，获得D2D通信对WiFi网络的干扰情况，当AP处于D2D的干扰范围内时，AP不能正确接受所有来自WiFi用户的信号，无法通过M来反映干扰，此时WiFi网络处于瘫痪状态，吞吐量为0，添加此状态的广播信息，记为Φ＝1，反之Φ＝0，作为智能体的基站根据上述AP广播的信息选取D2D对接入免授权频谱以及调整D2D的发射功率，AP广播信号的周期对应智能体的一步训练步数，即AP在智能体的决策时刻广播信号；

在步骤S4中，当智能体执行动作at与环境交互后，环境生成下一个状态st+1，智能体获取动作at的奖励r(st,at)，并将数据{st,at,rt,st+1}存储到经验回放空间中，奖励函数的定义为：其中Rtotal是共存系统的总吞吐量，为D2D系统总吞吐量RD与WiFi系统总吞吐量RW之和，M0是D2D通信干扰的WiFi用户个数阈值，Rdi是动作at中任意一对D2D的吞吐量，Rd是单对D2D的吞吐量阈值，奖励函数说明只有D2D通信对WiFi网络的干扰被限制在设定的范围内，同时保证D2D设备的通信质量，动作at才会有奖励，基站通过分析AP的广播信号获得m、RW和Φ，Rdi在基站和D2D设备信息交互时被基站获得，D2D系统总吞吐量；

在步骤S5中，智能体从经验回放空间中随机抽取H个{sk,ak,rk,sk+1}数据，计算Q‑Network_local的预测值qk和Q‑Network_target目标值的yk，qk和yk的表达式为：qk＝Q(sk,ak；θ)

‑

yk＝rk+γmaxa′Q′(sk+1,a′；θ)

其中γ为折扣率，γ越小代表智能体越关注当前回报，反之同理；

在步骤S6中，获得预测值qk和目标值yk后，通过以下损失函数计算损失：

损失通过神经网络反向传播，使用梯度下降法来更新Q‑Network_local的网络权重参‑ ‑数θ，经过设定的训练步数后，更新Q‑Network_target的网络权重参数θ，更新公式为：θ＝τ‑θ+(1‑τ)θ，其中τ为软间隔更新系数，且0＜τ＜＜1，τ越小，算法会越稳定，Q‑network_target的参数变化越小，算法收敛速度会越慢，反之同理；

调试各种超参数，包括学习率、折扣率、抽样样本大小、经验回放池大小、ε、神经网络层数及其神经元个数；重复智能体与环境的交互过程，即步骤2～步骤6，直至奖励函数曲线、D2D系统总吞吐量曲线、WiFi系统总吞吐量曲线经训练达到收敛状态，收敛状态时智能体执行的动作即为最优动作，由步骤S1中动作的定义可知最优接入免授权频谱的D2D对以及其最优发射功率。