欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 202010028293X
申请人: 湖南科技学院
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2024-08-12
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于强化学习机制的认知网络协作频谱感知节点选择方法,其特征在于,所述认知网络包括一个主用户和多个认知用户,多个所述认知用户设置在所述主用户的周围,形成多个协作频谱感知节点,所述协作频谱感知节点选择方法包括:在一个感知周期内,感知节点将自身的感知结果发送给融合中心,融合中心利用强化学习机制对每个感知节点的可靠度进行评估,并根据评估结果建立节点可靠度数值列表;

融合中心做出全局判决并将全局判决结果与各节点上报的结果进行比较,计算出对应节点的性能回报值r、能耗回报值g和综合回报值υ;融合中心获得综合回报值以后,如综合回报值满足预定要求,则在节点可靠度数值列表中选择可靠度排名靠前的M个节点进行下一个周期的协作感知;

所述综合回报值υ由性能回报值和能耗回报值等权重求和获得,其计算式为:融合中心获得综合回报值以后,如综合回报值不满足预定要求,则还需对认知网络的感知性能和能量消耗做出必要的修正,计算出对应节点的性能修正系数ρ、能耗修正系数ξ和综合修正系数ν;融合中心在获得综合回报值和综合修正系数后,对所有协作频谱感知节点重新评估,并更新学习参数pj;在获得新的学习参数pj之后,融合中心重新计算各协作频谱感知节点的可靠度,并依据可靠度大小更新节点可靠度数值列表;融合中心在更新后的节点可靠度数值列表中选择可靠度排名靠前的M个节点进行下一个周期的协作感知。

2.根据权利要求1所述的协作频谱感知节点选择方法,其特征在于,在融合中心对协作频谱感知节点的可靠度进行评估的过程中,第j个协作频谱感知节点的可靠度记为qj,qj的计算式为:

式(1)中,k代表一个工作时段内总的感知周期中的判决次数,|Rj,i|表示第j个感知节点在第i次感知时的感知结果;rj,i表示第j个感知节点在第i次感知时获取的奖赏值,当融合中心在i时刻判决主用户在工作,即判决值为“1”,而同时第j个节点在时刻i的权值也为

1,则节点j获得的奖赏值为rj,i=1,否则为rj,i=0;当融合中心判决主用户不在工作时,即判决值为“0”,而同时第j个节点的权值为‑1,则该节点获得的奖赏值为rj,i=1,否则rj,i=

0;通过式(1)计算出每个节点的可靠度数值,并将可靠度数值按由高到低排序保存在可靠度列表中。

3.根据权利要求1所述的协作频谱感知节点选择方法,其特征在于,所述性能回报值r的计算式为:

式(2)中,Xi代表第i个感知周期融合中心的判决结果,如判决主用户在工作则取值为1,否则取值为0;k代表一个工作时段内总的感知周期中的判决次数,CG为正确判决的加权因子,CB为错误判决的加权因子;其中,αi和βi的取值为:

4.根据权利要求1所述的协作频谱感知节点选择方法,其特征在于,所述能耗回报值g的计算式为:

式(4)中,DG代表能量消耗小于阈值的加权因子,DB代表能量消耗大于阈值的惩罚因子;

Yi的取值为:

式(5)中,λ是预设能耗阈值,表示一个感知时隙内所有协作频谱感知节点允许消耗的最大能量。

5.根据权利要求1所述的协作频谱感知节点选择方法,其特征在于,所述性能修正系数ρ用于惩罚当融合中心判决主用户不存在或存在时,某单个节点上报结果为主用户存在或不存在,即一个工作周期内该节点平均错误上报次数;其计算式为:式(7)中,xi(j)表示第j个节点的上报结果,Xi为第i个感知周期融合中心的判决结果。

6.根据权利要求5所述的协作频谱感知节点选择方法,其特征在于,所述能耗修正系数ξ用于惩罚能量消耗超过平均值的节点,即每个工作周期该节点能耗超越平均值的平均次数;其计算式为:

式(8)中,ei(j)表示第j个节点消耗的能量, 表示每个节点消耗的平均能量。

7.根据权利要求6所述的协作频谱感知节点选择方法,其特征在于,所述综合修正系数ν由性能修正系数和能耗修正系数等权重求和获得,其计算式为:

8.根据权利要求1所述的协作频谱感知节点选择方法,其特征在于,根据强化学习中瞬时差分算法的迭代公式可得出每个应用周期中学习参数的更新方法为:式(10)中, 为当前工作周期的学习参数;υ代表综合回报值; 代表综合惩罚; 代表节点j在当前工作周期的可靠度;β1和β2是正常数;υ′代表全局回报累积,υ′的更新迭代公式为:

υ′=γ·υ+(1‑γ)·υ′,0<γ≤1                  (11);

式(11)中,γ是常数,等式右边的υ′是当前累积回报值,等式左边的υ′是下一时刻的累积回报值;一个工作周期结束,融合中心的节点可靠度数值列表更新学习参数Pj,根据学习参数Pj计算πj的计算式为:

融合中心选择πj值排名靠前的M个节点进行下一个工作周期的协作感知。