欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022101708445
申请人: 北京麦匙科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-29
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.移动边缘计算中一种根据用户移动模式计算卸载的方法,其特征在于,包括以下步骤:

在包含N个小基站和1个宏基站的移动边缘网络中,为每个宏基站周围配置一台MEC服务器,并建立异构网络中系统的通信模型;所述异构网络中系统的通信模型包括每个MEC服务器的服务覆盖有效范围内为周围用户提供算力来进行任务的卸载计算,用户使用移动智能终端设备通过无线网络将任务卸载到关联的MEC服务器;每个MEC服务器通过一个高速回程链路连接宏基站,宏基站周围存在一个中央控制器,负责决定移动模式下的移动智能终端设备的卸载决策;

根据各个小基站所在区域,得到整个小基站群落的位置坐标集合,并确定出小基站的最大有效服务范围;并根据用户在不同时隙下的移动模式,得到目前时隙以及上一时隙分别与用户关联的MEC服务器位置坐标;

按照不同时隙下与用户关联的MEC服务器位置坐标信息,计算出这两个MEC服务器坐标的距离,从而建立系统的计算模型;所述系统的计算模型包括将小基站的位置坐标集合定义为 小基站分散在各个小区周围,小基站的最大有效服务范围为B;将时间离散化 在时隙t下,一位用户驾驶智能车辆经过系统中

构建的小区,智能车辆通过无线网络连接到最近的一个小基站,假设此时用户关联的MEC服务器的位置坐标点为(xc,yc),其中 表示用户始终在整个小区群落之间穿梭;

在这之前,智能车辆将其任务卸载到对应MEC服务器的位置坐标点为(xb,yb),其中将用户此时关联的MEC服务器位置和原来所关联的MEC服务器之间的距离定t

义为d,表示为

按照不同时隙下与用户关联的MEC服务器位置坐标信息以及任务服务的最大有效范围,确定出用户是否需要进行任务迁移,从而建立任务迁移和卸载模型;所述任务迁移和卸载模型包括在某一时隙下,智能车辆从一个位置坐标行驶离开,当经过一段时间后,车辆脱离原本关联的MEC服务器范围,进入到另外一个MEC服务器的服务覆盖范围内;中央控制器采用迁移决策将原MEC服务器上的任务或计算结果迁移到现在与之关联的MEC服务器上进行卸载计算;

根据用户关联前后的MEC服务器坐标之间的距离,分别计算出用户体验质量和迁移延迟成本;根据用户与MEC服务器之间一跳的距离,计算出用户的切换再连接延迟成本;根据迁移延迟成本和切换再连接延迟成本,计算出用户在移动模式下的延迟成本;

将用户体验质量和在移动模式下的延迟成本之间的差值作为奖励,利用改进后的深度强化学习DQN算法优化用户体验质量总成本;将系统模型中宏基站下的中央控制器设计为代理,通过所述代理收集系统中各个MEC服务器的信息状态,包括用户智能车辆所关联的MEC服务器的位置坐标,MEC服务器的计算任务量以及计算能力;并根据根据智能车辆的移动模式来做出任务迁移卸载动作,将用户体验质量和在移动模式下的延迟成本之间的差值作为奖励,运行改进后的深度强化学习DQN算法计算出最优的任务迁移卸载决策;

所述奖励表示为:

其中,Rt表示在t时隙下的奖励,μq和μd分别表示用户体验质量权重系数和延迟成本权重系数,μq∈[0,1],μd∈[0,1]且μq+μd=1;当执行不迁移的动作时,那么就没有用户转换再连接的延迟和任务迁移延迟,相应的延迟成本权重系数也就为0,那么此时用户体验质量权重系数则为1,Qt表示在t时隙下的用户体验质量成本, 表示在t时隙下用户在移动模式下的延迟成本, 表示在t时隙下的用户迁移延迟成本, 表示在t时隙下的用户的切换再连接延迟成本,at表示在t时隙下代理执行的动作,即当at=0时表示代理不采取任何迁移决策,当at=1时表示代理采取迁移卸载决策;

所述深度强化学习DQN算法的训练过程包括:

1)初始化:初始化经验回放池D,内存大小设为Z;初始化模型中央控制器的主神经网络Q(s,a;θ),并赋值神经网络参数θ以随机权重;初始化中央控制器的target神经网络Q(s,a;

‑ ‑

θ),并赋值神经网络参数θ以随机权重;从MEC服务器坐标随机选择位置坐标(x1,y1)作为此时用户关联的MEC服务器位置坐标,并将初始状态设为s1=(x1,y1);

2)片段迭代:当i=1,...,I时,在每一轮迭代过程i中,接收模型初始观测状态用户的位置坐标、当前关联的MEC服务位置坐标和之前关联的MEC服务器坐标集合作为s1,进入第3步;

3)时间迭代:当t=1,...,T时,控制器此时获取用户原来关联的MEC服务器位置坐标(xt,yt),以随机概率ε随机选择行为a作为任务迁移动作,否则选择行为a=argmaxQ(x,a;θ)作为最优迁移动作;在训练中执行动作a来决定任务是否需要进行迁移,获取下一时刻的状态st+1和奖励rt,并更新状态st为st+1;控制器收集一组经验数据后存储经验数据(st,at,r1,st+1)到经验回放池D,再从经验回放池中随机抽取小批次样本(sj,aj,rj,sj+1),结合纯贪心‑抽样和均匀分布抽样的随机抽样方法来计算target神经网络Q(s,a;θ)的目标值yt,最后通过最小化损失函数L(θ)更新主深度神经网络Q(s,a;θ);对于神经网络参数θ,在L(θ)上执行‑梯度下降,并且以每固定的C步更新target神经网络Q(s,a;θ)的目标值,然后赋值Q(s,a;

θ)=Q(s,a;θ);

4)重复步骤3)的上述迭代过程,并令t=t+1,直至DQN算法曲线收敛或者t=T;

5)重复步骤2)的上述迭代过程,并令i=i+1,直到系统总开销不再随迭代片段的增加而变化或者i=I,即DQN算法曲线收敛时,整个DQN算法训练过程结束;

所述经验回放池包括通过set集合搭建出数据结构,并利用set集合的去重属性,在存放经验数据时对其中的冗余数据进行过滤,在set集合中利用时序差分法计算出target神经网络的目标值与主神经网络的当前值的差值即TD error值,基于TD error的值来对存放的经验数据进行权值排序,并按照权值对经验数据进行排列;

所述结合纯贪心抽样和均匀分布抽样的随机抽样方法包括设置第一条件和第二条件,当同时满足第一条件和第二条件时,确定出抽样概率,按照该抽样概率来控制随机抽取小批次样本;其中,所述第一条件为在确保训练数据的优先级中抽样的概率是单调,所述第二条件为对于最低优先级的训练数据也要保证非零概率,将抽样概率定义为其中p(i)为第i条训练数据的优先级,α为优先级使用程度,m表示训练样本的数量;

用户体验质量总成本的优化模型表示为:

其中, 表示用户体验质量总成本; μq表示用户体验质量成本系数,

μc表示延迟成本系数,μq∈[0,1],μc∈[0,1]且μq+μc=1;Qt表示在t时隙下的用户体验质量,tqmax表示最优用户体验质量, 表示单位距离用户体验质量的衰减系数,d

表示在t时隙下用户当前关联的MEC服务器位置和前一时隙所关联的MEC服务器之间的距离; 表示在t时隙下用户在移动模式下的延迟成本, 表示在t时隙下的用户迁移延迟成本, h表示MEC服务器和用户之间一跳的距离; 表示在t时隙下

的用户的切换再连接延迟成本, 表示两个MEC服务器之间单位距离的迁移时延;

T表示时隙数; 表示求期望,式(6b)为在时隙下,智能车辆的位置始终在某个MEC服务器的服务范围内,bi表示第i个小基站的有效服务范围,N表示小基站个数,B为小基站的最大有效服务范围;式(6c)为在时隙下,用户的体验质量都应该大于一个用户体验质量的下限,Qmin表示最小用户体验质量;式(6d)表示为在时隙下,延迟总成本都不能超过用户最大容忍延迟,Cmax表示用户在移动模式下的最大延迟成本。