知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于Q学习的信道选择方法

￥16000

专利号： 2020100245574

申请人：重庆邮电大学

专利类型：发明专利

专利状态：已下证

专利领域：电通信技术

更新日期：2024-11-28

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于Q学习的信道选择方法，其特征在于：具体步骤如下：

S1：设置传感器节点的信道状态集合和动作集合；

S2：初始化传感器节点的状态和行为Q值，令迭代次数k＝1；

S3：随机选择一个动作，即随机感应一个信道；

S4：判定感应信道的结果。若感知信道忙碌，则节点从周围无线电信号中收集能量，若感知为空闲，则估计该信道的可用时间；

S5：根据感应结果计算执行该动作后的环境奖励值，根据动作选择策略进行下一动作选择，随即节点进入下一状态；

S6：根据公式更新传感器节点的行为Q值函数；

S7：令k←k+1，重复执行步S3～S6，直至Q矩阵收敛，根据Q矩阵选择出最优的信道感知序列。

2.根据权利要求1所述的基于Q学习的信道选择方法，其特征在于：在步骤S1中，假设有i个授权信道，基于能量收集的认知无线传感器节点的状态集合表示为授权信道集合S＝{s1,s2,…si}，即把SU当前所在信道视为一个状态。将传感器节点下次决定感知的信道作为动作，动作集合A＝{a1,a2,…ai}。认知用户执行动作aj则代表下次感应j信道，同时智能体进入状态sj。

3.根据权利要求2所述的基于Q学习的信道选择方法，其特征在于：在步骤S2中，设置节点能选择进行频谱感知的授权信道行为Q值Q(s,a)为零矩阵，从授权信道集合S中随机选择一个状态作为节点初始状态，令迭代次数为1，开始进入迭代。

在Q学习过程中，传感器节点作为智能体，学习目标是寻找一个最优策略，最大化学习者的长期累积回报，评价当前策略优劣的状态值函数表示为：其中r(sk,ak)表示传感器节点从环境中获取的奖励值，p(sk+1|sk,ak)表示节点处于当前状态下sk时选择动作ak后转移到状态sk+1的概率。

4.根据权利要求3所述的基于Q学习的信道选择方法，其特征在于：在步骤S3中，随机选择感应一个信道。感应该信道后，可得到信道目前的占用情况。在信道业务方面，假设每个频段上的授权用户的业务流分布服从泊松过程。假设授权信道j的主用户PU分别以速率λj和μj的泊松过程到达和离开信道。为模拟PU实时的信道使用规律，我们令PU驻留时间参数是[10,100]的随机数。

5.根据权利要求4所述的基于Q学习的信道选择方法，其特征在于：在步骤S4中，根据每个信道节点感知的情况判断感应信道的结果。一个SU感知信道为空闲的概率包括两种情况，即信道被正确感知为空闲的概率和信道被错误感知为空闲的概率。因此，SU感应信道为空闲的概率可表示为：pidle＝(1-pf)(1-pbs)+(1-pd)pbs，其中pd和pf分别表示检测概率和虚警概率，pbs表示信道实际忙碌的概率，这可以从信道流量模型中得到。为保证PU业务的服务质量，我们假设各信道的检测概率均大于最低的检测概率。

若感知信道j忙碌，则传感器节点可利用该信道上PU的存在，收集射频信号能量以补充节点能量。若感知信道j为空闲，则估计该信道的可用时间。感应到信道j的可用时间表示为：其中表示为信道实际空闲概率：信道空闲的平均可用时间可表示为：

6.根据权利要求5所述的基于Q学习的信道选择方法，其特征在于：在步骤S5中，根据感应结果计算执行该动作后的环境奖励值。我们的目标是为了提高频谱感知能效，通过Q学习优化频谱感应阶段感应到的信道持续时间，选择单位能耗检测到的信道可用时间更大的信道进行感知，最终在频谱感知的时间内得到最优的信道感知序列。我们把节点单位能耗感知到的空闲信道时间作为回报函数，定义奖励值函数为：其中

若回报值不为0，根据动作选择策略进行下一动作选择。动作选择策略采用ε贪婪选择策略。在Q-learning框架下，智能体在每次平衡探索和利用的过程中根据该策略以概率ε进行随机动作选择，以概率1-ε选择最大效用的动作以增快Q矩阵的收敛。随即节点进入下一状态。我们把节点当前感应的信道作为节点下一个状态。

7.根据权利要求6所述的基于Q学习的信道选择方法，其特征在于：在步骤S6中，根据公式更新行为Q值函数：式中α表示学习速率且0＜α＜1，学习速率越大，表明保留之前训练的效果就越少。Υ表示折扣因子且0≤Υ＜1。r(sk,ak)表示传感器节点在状态st选择动作at时所获得的即时奖励。学习速率和折扣因子协同作用调节Q矩阵的更新，进而影响Q算法的学习性能，α取值

0.5，Υ取值0.8。

8.根据权利要求7所述的基于Q学习的信道选择方法，其特征在于：在步骤S7中，增加迭代次数，令k←k+1，重复执行步S3～S6，直至Q矩阵收敛，根据Q矩阵可选择出最优的信道感知序列。在稳定状态下，当频谱感知需求出现时，SU根据优先级列表选择信道进行扫描。