1.一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,具体包括以下步骤:S1、建立系统模型,并根据处理的任务数构建IoT设备端的任务队列模型;
S2、确定任务计算方式并建立通信模型;
S3、建立任务本地计算模型,得到本地任务计算总开销;
S4、建立任务卸载计算模型,得到卸载任务计算总开销;
S5、引入能量收集,建立IoT设备端的剩余电量队列模型;
S6、构建以最小化MEC系统中IoT设备总开销的长期平均为目标的优化问题;
S7、建立基于强化学习的独立学习任务卸载模型,包括系统状态空间、动作空间和奖励函数,求解最优的任务卸载策略。
2.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,在IoT设备端的任务队列模型中,在t+1时隙任务队列Q(t)的更新表示为:i
Q(t+1)=min{max{Q(t)‑b(t),0}+π(t),Q};
i
其中,Q(t)表示第t个决策时隙IoT设备队列中的任务数;b (t)表示IoT设备在第t个决策时隙决定处理的任务数,i∈{0,1,2,...,N,N+1},N表示SBS的数目,当i=0表示IoT设备决定在本地处理计算任务、i=1表示IoT设备决定将任务卸载到MBS、i>1表示IoT设备决定将任务卸载到SBS;π(t)表示t个决策时隙内IoT设备产生的任务数,π(t)服从均值为λ的泊松分布且π(t)独立同分布,Q表示可在IoT设备缓存队列排队的最大计算任务数。
3.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,确定任务计算方式包括:
i
a(t)∈{0,1},i∈{0,1,2,...,N,N+1};
i i
其中,a (t)=1表示IoT设备选择方式i执行计算任务,否则有a (t)=0;i=0表示IoT设备选择在本地执行任务,i=1表示IoT设备选择卸载到MBS执行任务,i>1表示IoT设备选择卸载到SBS执行任务,且IoT设备在每个决策时隙只能选择一种计算方式。
4.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,本地任务计算总开销表示为:l l l
C(t)=λtT(t)+λeE(t);
l l 0
E(t)=pξb(t);
l l l
其中,C (t)为本地任务计算总开销,T (t)为第t个决策时隙任务在本地计算的时延,E0
(t)为第t个决策时隙任务在本地计算的能耗,λt与λe分别代表时延和能耗的权重系数;b(t)表示在第t个决策时隙IoT设备在本地处理的任务数,ξ表示处理单个任务所需要的CPUl l
周期数,f表示IoT设备的计算能力,p为IoT设备计算单位CPU周期所消耗的能耗。
5.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,卸载任务计算总开销表示为:其中, 为卸载任务计算总开销, 为IoT设备将任务卸载到目标基站i的总时延, 为IoT设备将任务卸载到目标基站i的总能耗,λt与λe分别代表时延和能耗的权i tr
重系数;η表示单个任务的原始数据量,f 表示MEC服务器分配给IoT设备的计算资源,p 表o
示IoT设备上传数据的传输功率,p表示IoT设备空闲时的功率。
6.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,IoT设备端的剩余电量队列模型表示为:max
e(t+1)=min{max{e(t)‑E(t),0}+q(t),E };
其中,e(t+1)表示在第t+1个决策时隙的开始IoT设备的剩余电量,e(t)表示在第t个决策时隙的开始IoT设备的剩余电量,E(t)表示任务本地或卸载计算的能耗,q(t)表示IoT设max
备从周围环境中获取的能量,E 表示IoT设备的最大电池容量。
7.根据权利要求6所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,IoT设备从周围环境中获取的能量q(t)表示为:其中,μ∈(0,1)表示能量转换效率,ν(t)表示在时隙t的发射功率,d表示无线充电发射器与IoT设备之间的距离,κ表示路径损耗因子, 表示无线充电发射器天线与IoT天线的联合增益。
8.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,以最小化MEC系统中IoT设备总开销的长期平均为目标的优化问题表示为:其中,C(t)为在决策时隙tIoT设备的总开销;E[·]表示求期望;T表示时隙的总长度;
表示系统总开销的长期平均。
9.根据权利要求1所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,在基于强化学习的独立学习任务卸载模型中系统的状态空间表示为:s(t)=[Q(t),e(t),gi(t)];
系统的动作空间表示为:
i i
y(t)=[a(t),b(t)];
系统的奖励函数表示为:
其中,S为系统的状态空间,s(t)∈S,Q(t)∈{0,1,...,Q}表示IoT设备任务缓存队列的max
任务数,e(t)∈{0,1,...,E }表示第t个决策时隙IoT设备的剩余电量,gi(t)∈G表示第ti
个决策时隙IoT设备与基站i之间的信道增益;Y为系统的动作空间,y(t)∈Y,a (t)∈{0,i
1},i∈{0,1,2,...,N,N+1}表示IoT设备选择的计算方式,b(t)∈{1,2,...,Q(t)},i∈{0,
1,2,...,N,N+1}表示IoT设备在第t个决策时隙决定处理的任务数;R(s(t),y(t))为系统的l
奖励函数,β∈[0,1]表示平衡本地计算总开销和当前状态的实际开销的权重,I(e(t)≥E(t))表示剩余电量支持本地计算, 表示剩余电量支持任务卸载到基站i。
10.根据权利要求9所述的一种基于独立学习的移动边缘计算任务卸载方法,其特征在于,求解最优的任务卸载策略包括:根据状态s下动作a对应的动作值函数计算策略π累积的奖励值期望,策略π为一个待执行动作合集,该期望表示为:
通过最大化t时刻的动作值函数Qt(s,y),获得最优卸载策略,t+1时刻的动作值函数表示为:
Qt+1(s,y)=Qt(s,y)+α(Rt(s,y)+γmaxy'∈YQt(s′,y′)‑Qt(s,y));
最优卸载策略表示为:
* *
π(s)=arg maxy∈YQ(s,y);
其中,γ为折扣因子;α表示学习速率;s(0)表示初始状态,s(t)表示t时刻的状态;y(0)表示初始动作,y(0)表示t时刻的动作,Y表示所有动作的集合;Qt(s′,y′)表示t时刻状态s′*
下动作y′的价值;Rt(s,y)为t时刻状态s下动作a的价值函数;π表示选择的策略,π(s)为最*
优卸载策略;Q(s,y)表示得到的最优动作值的价值函数。