欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 202011286673X
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:已下证
专利领域: 电通信技术
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于改进深度Q学习的网络选择方法,其特征在于,包括以下步骤:

101、通过周期性采样超密集异构无线网络参数的值来初始化深度Q学习选网模型,网络参数值包括采样接收信号强度、吞吐量和休眠概率,通过网络参数值来构建深度Q学习的动作空间、状态空间和回报函数,深度Q学习选网模型模型由线下训练模块与线上决策模块构成,线下训练模块用于训练神经网络的样本与权值,线上决策模块用于得到最佳选网策略,上述两个模块均采用深度Q网络构建;

102、根据步骤101得到的深度Q学习选网模型,利用迁移学习对线下训练模块和线上决策模块进行协同交互,根据迁移学习算法,加速线上决策模块的神经网络训练过程,将线下训练模块的训练样本迁移到线上决策模块中,通过迁移线下训练模块的训练样本与权值,并对迁移后上述两个模块产生的训练误差进行校正,直到误差趋近于0,整个迁移学习过程结束,并通过深度Q学习选网模型得到最优策略,完成网络选择。

2.根据权利要求1所述的一种基于改进深度Q学习的网络选择方法,其特征在于,所述步骤101初始化深度Q学习选网模型,通过网络参数值来构建深度Q学习的动作空间、状态空间和回报函数,具体包括步骤:

401、将超密集异构无线网络环境中终端可以接入的候选网络,即基站和访问点用集合N={n1,n2,...,ni}表示;其中,ni表示第i个候选网络,终端在t时刻接入候选网络ni表示为at(ni),则动作空间可定义为At={at,at∈{at(n1),at(n2),...,at(ni)}};

将状态空间定义为St=(rsst,ct,pt),其中,rsst表示在t时刻各候选网络的接收信号强度所构造的集合,ct表示在t时刻各候选网络的吞吐量所构造的集合,pt表示在t时刻各候选网络的休眠概率所构造的集合;

为最大化终端所获得的吞吐量,通过考虑网络的吞吐量和休眠概率,将回报函数定义为:

其中,Ct(ni)表示在t时刻终端接入候选网络ni获得的吞吐量,Pt(ni)表示在t时刻候选网络ni的休眠概率;

402、Q函数表示在状态S下执行动作a,以及采取后续动作所产生累计回报值的期望,定义为:其中,t表示运算过程中的时刻,Υt∈[0,1]为折扣因子,用于调整对未来回报的重视程度,值为0意味着只考虑短期回报,否则更重视长期回报,随着时刻t的增加,Υt逐渐降低,E(·)为期望函数;

深度Q学习算法利用神经网络构建Q(S,a;θ),其中,θ为权值,使得Q(S,a;θ)≈max(Q(S,a))来进行近似求解,同时,利用目标网络的目标Q值来防止估值网络产生的预估Q值发生失控的情况,通过损失函数调整两者之间的误差,以缓解训练过程中出现的迭代不稳定问题。

3.根据权利要求1所述的一种基于改进深度Q学习的网络选择方法,其特征在于,所述步骤102训练样本与权值的生成步骤如下:神经网络的训练样本是由历史信息数据库中不同时刻的当前状态、动作、回报值以及未来状态所构成的,即(St,at,Rt,St+1),其中,t∈(0,+∞),在深度Q网络中,为了训练神经网络,通过设置经验回放池,用于存放多个时刻的训练样本,通过随机抽取部分样本,来减少训练样本之间的相关程度,将线下训练模块的训练样本迁移到线上决策模块中,利用迁移的线下训练样本以及线上学习样本,构建线上决策模块的经验回放池,表示为:Dsum=Don+ξDoff         (3)

其中,Dsum为经验回放池存放的样本总量,Don为线上学习样本的总量,初始值为0,Doff为线下训练样本的总量,ξ∈[0,1]为样本迁移率,随着训练过程中迭代次数的增加,ξ逐渐降低;

在线上决策模块的经验回放池构建完成后,将线下训练得到的神经网络权值θoff迁移到线上决策模块中,作为神经网络训练的初始权值,即θon=θoff。

4.根据权利要求3所述的一种基于改进深度Q学习的网络选择方法,其特征在于,将线下训练得到的神经网络权值θoff迁移到线上决策模块中后,神经网络开始迭代训练,在线下训练与线上决策模块通过迁移学习协同配合的过程中,将线下训练与线上决策模块之间产生的训练误差定义为策略损失,采用策略模仿机制,通过线下训练模块中,预估Q值Qoff(St,at;θoff)的玻尔兹曼分布,将线下训练模块的估值网络转化为线下策略网络πoff(St,at;

θoff);

同样,利用线上决策模块的预估Q值Qon(St,at;θon),将线上决策模块的估值网络转化为线上策略网络πon(St,at;θon),线下训练与线上决策模块之间的策略损失采用交叉熵衡量。

5.根据权利要求4所述的一种基于改进深度Q学习的网络选择方法,其特征在于,所述线下策略网络πoff(St,at;θoff)表示为:其中,T表示服从玻尔兹曼分布的参数,其值越大,则动作at的选择受Q值的影响越小,即所有动作以接近相同的概率被选择,Aoff为线下训练时深度Q学习的动作空间;

线上策略网络πon(St,at;θon),表示为:

线下训练与线上决策模块之间的策略损失采用交叉熵衡量,则策略模仿损失函数表示为:

在策略损失存在的情况下,线上决策模块预估Q值Qon(St,at;θon)的梯度更新表示为:其中,Qπ(St,at;θon)表示在策略π下预估Q值的无偏差估计值;

当Qπ(St,at;θon)≈Qon(St,at;θon),即线下训练与线上决策模块之间的策略损失趋近于

0,此时迁移学习过程结束。

6.根据权利要求4所述的一种基于改进深度Q学习的网络选择方法,其特征在于,终端在移动过程中,当将要进入或者离开某个基站时,会出现网络选择决策时刻,此时终端需要进行网络选择,为了得到终端所要面临的网络选择决策时刻,根据网络的接收信号强度与终端的移动速度来进行预测。

7.根据权利要求6所述的一种基于改进深度Q学习的网络选择方法,其特征在于,根据网络的接收信号强度与终端的移动速度来进行预测步骤具体包括:假设终端在基站覆盖范围内的移动模型为自A点移动至C点,B点表示终端自A点移动Δl后所处的位置,根据终端当前的运动趋势,预测在C点处将出现网络选择决策时刻tC,则ΔOAM和ΔOBM的关系表示为:其中,r表示网络覆盖范围的半径,Δl表示终端移动的距离,lBM表示终端当前与弦AC中点M的距离, 通过检测B点的接收信号强度值,可得到基站到B点的距离lOB,终端在基站覆盖范围内的平均移动速度可表示为V,则网络选择决策时刻tC表示为:假设在网络选择决策时刻t,候选网络中最大Q值对应的网络为nm,则终端在决策时刻t的最佳选网动作为at(nm),以此类推,终端在不同的网络选择决策时刻所构成的最佳选网动作集合,定义为最优策略π*,最优策略π*表示在引入休眠机制的超密集异构无线网络环境下,终端与候选网络在不同的网络选择决策时刻实现最佳匹配。

8.根据权利要求7所述的一种基于改进深度Q学习的网络选择方法,其特征在于,所述深度Q网络具体为:首先,利用全连接神经网络构建估值网络。估值网络Q(S,ai;θ)定义如下:

Q(S,ai;θ)=fDNN(S,ai;θ) ai∈A        (10)

其中,fDNN(·)表示全连接神经网络的非线性映射函数,θ表示权值,Q(S,ai;θ)表示在权值θ的前提下,当输入状态空间S时,选择动作ai的Q值。

在通过梯度下降法对估值网络Q(Si+1,ai;θ)进行更新的过程中,为防止估值网络Q(S,ai;θ)产生的值出现失控的情况,通过定义目标网络 使得训练更加稳定,目标网络 的网络结构与估值网络Q(S,ai;θ)一致,同时将估值网络Q(S,ai;θ)的权值θ拷贝给权值 从而对 进行更新。两者在更新过程中的差距通过设置损失函数来逐渐缩小,在构建损失函数之前,需要先构建经验回放池D,定义如下:D={(S1,a1,R1,S2),…,(Si,ai,Ri,Si+1),…,(Sm,am,Rm,Sm+1)}      (11)其中,m为经验回放池的最大容量,(Si,ai,Ri,Si+1)表示第i个时刻的数据。

通过回报值R和经验回放池D,定义损失函数L(θ):

其中,Υ为长期回报值的折扣因子,E[·]为期望函数。