1.面向移动边缘计算的车联网任务卸载与资源分配策略,其特征在于,包括以下步骤:步骤101:构建基于MEC服务的车辆网络,包括:考虑RSU与WiFi节点共存的V2X异构网络场景,MEC服务器部署于RSU侧,采用正交频分多址OFDMA来支持由RSU控制的授权频带中的车辆多路访问,对于非授权频带,采用载波侦听多址接入和冲突避免CSMA/CA机制实现与WiFi共存的模式,车辆密集部署且服从泊松分布,任务类型不同的车辆其通信模式不同,将车辆分为四种类型,授权频带中存在需要高容量V2I通信的M个车辆CUE,表示为C={1,2,…,M},以及对时延要求高的K个V2V车辆DUE,用D={1,2,…,K}表示,在WiFi节点与LTE‑U共同部署的通信范围内,有U个WiFi用户WUE将任务卸载到WiFi节点,WiFi用户集合为W={1,2,…,U},在WiFi与RSU覆盖范围重叠区域的V2V车辆VUE表示为V={1,2,…,L};
CUE因计算能力有限,计算任务ni需要通过RSU卸载到MEC服务器,由MEC服务器计算后将结果回传,任务上传需要RSU调度正交的资源块RB,RSU总的频率资源表示为R={1,2,…,F},DUE能有效利用V2V链路的可靠性优势,将任务卸载到周边车辆进行计算;离CUE较远的DUE复用CUE的RB,因此与CUE存在一定的同层干扰,而离CUE较近的DUE使用与CUE正交的RB,关于LTE‑U技术,接入信道间隙可分为竞争期CP和静默期CFP,在CP期间,VUE通过LTE‑U技术与WUE竞争非授权频谱,然而在CFP期间VUE可以充分利用基于LTE‑U技术的非授权频谱,本文主要对基于CFP的LTE‑U模式进行分析,VUE使用CA技术复用授权频谱和非授权频谱,从而提供系统容量,不难得出,VUE任务类型对时延有较高的容忍度;
假设所有车辆都配备单个天线,为了提高频谱利用率,DUE复用部分CUE上行链路的RBf,因此DUE与CUE之间存在干扰,而VUE在基于CFP的LTE‑U技术支持下,复用授权频带CUE的RBf,因此CUE与VUE之间也存在干扰,因为RSU集中调度正交RB,所以假设VUE与DUE之间不存在干扰;
考虑到基于瞬时信道统计信息CSI进行资源管理时无法及时跟踪快速变化的无线信道,考虑缓慢衰落参数和CSI,定义CUEm与RSU之间信道增益hB,m如下:其中,gB,m表示小尺度快速衰落功率参数,服从指数分布,βB,m是标准偏差为ζ的对数正态阴影衰落随机变量,A是路径损耗常数,Lm,B是第m个CUE与RSU之间的距离,α为衰减指数,第k个DUE到RSU的信道增益hB,k以及从第m个CUE到第k个DUE的干扰信道增益 的定义表达式与hB,m类似,假设信道的大尺度衰落分量在RSU处是已知的,因为它们通常取决于用户的位置,基站可以预测V2I车辆衰落参数,V2V车辆的衰落参数在接收车辆处检测得到并定期报告给RSU;
对于资源块f,CUEm在RSU侧接收信干噪比 表示为:2
其中, 与 分别表示CUEm与DUEk的发射功率,σ为噪声功率,ρk,m=1表示第k个DUE复用第m个CUE的RB,否则为0;同理,可类似定义DUEk在RSU侧接收SINR 以及非授权频带l m
中V2V链路的VUE复用CUE的资源块f′时的接收SINR因此,用b0表示授权频带每个RB的带宽,b1表示非授权频带每个RB的带宽,则CUEm、DUEk、l
VUE的容量 分别表示为:
现有的物理层信道模型无法明确度量QoS,因此结合时延因子形成有效容量EC的链路层信道模型来量化QoS,用累积量生成函数表示容量与时延如下:‑ψQ(t)
EC(ψ)=logE{e }
其中,ψ为时延因子, 表示帧持续时间t内容量R(t)累积和,考虑到信道系数在t内保持不变并且对于每个帧独立变化的情况,在持续时间t内容量为一常量R,EC可表示为:
‑ψtR
EC(ψ)=logE{e }
因为信道是缓慢变化的,因此定义车辆可容忍的时延满足以下公式:式中,Emax表示车辆可以容忍的最大时延,从上式可以看出,ψ越大表示链路质量越好,当ψ≈0时,EC收敛于遍历容量;
步骤102:确立通信模型建立目标规划问题,包括:针对不同类型链路的差异化需求,即大容量的V2I链路和高可靠性的V2V链路需求,制定有效策略来最大化V2I总遍历容量,同时保证每个V2V链路的可靠通信,通过控制中断概率来保证V2V链路的可靠性,设置接收SINR低于预定阈值概率的门限值,系统的遍历容量是通过快衰落的长期平均值来计算的,则在慢衰落的时间范围内码字长度跨越几个相干周期,系统性能与遍历容量的接近程度取决于车载信道的时间变化快慢以及可容忍的延迟大小,在给定的时间段内,更快的变化会导致更多的信道状态,这使得系统性能更快地接近计算的遍历容量,因为码字需要遍历大部分信道状态来平均衰落效应,为此,将车载网络中的无线资源分配问题表述为:
优化目标的第一部分表示V2I链路没有复用RB的CUE容量,第二部分表示授权频带DUE复用V2I链路RB的容量,第三部分表示频带重叠区域D2D用户即VUE复用V2I链路CUE的RB的容量;C1(C2)通过控制CUE(DUE)的SINR低于设定阈值 的中断概率p0(p1)来保证车辆的QoS;C3、C4和C5分别表示CUE、DUE和VUE的发射功率限定, 表示V2I(V2V)链路上行最大发射功率;C6、C7为通信模式的数学模型,C1(C2)表示一个资源块至多可以同时被一个CUE和一个VUE复用,ρm,k表示一个资源块至多同时被一个CUE和一个DUE复用;
步骤103:最大化V2I链路遍历容量,并保证V2V链路可靠性问题,包括首先,联合建模容量和时延因子作为K‑means算法特征输入进行分簇,从而确定车辆通信模式,具体包括:在RSU覆盖范围内结合车辆任务请求类型,依据联合建模后的QoS量化因子EC进行聚类,聚类形成V2I簇与V2V簇,对于V2V簇,建模车辆任务卸载为匹配模型来选择邻近车辆形成D2D对,下面详细介绍基于改进K‑means算法的通信模式选择机制:j j j j
其中,U 表示第j个簇,E表示最大簇数,num(U)表示簇j中车辆数目,U的簇心u可由下式得到:
两个车辆基于欧式距离判断两者之间特征差额tr:id jd
其中,x 、x 表示d维欧式空间中的两个车辆,算法目标是最小化的目标函数平方误差和SSE,由以下等式给出:
利用K‑means进行模式选择算法的时间复杂度接近线性,为O(MET),其中M表示车辆的数量,E代表簇的数量,T表示迭代次数,设置最大迭代次数为it,则算法如下:
103‑1‑A:输入:请求车辆QoS数据集合为{EC1,EC2,…,ECmax},最大簇为E
1 2 E 1 2 3
103‑1‑B:输出:连簇集合{U,U,…,U},且Ui={x,x,x,…}
103‑1‑C:所有数据集分为一个簇;
for r=1:it
while num(U)≤E
for i=1:E
i
随机选择u作为初始簇心
i
while u
i
根据式(1)计算从车辆j到u之间的tr,并划分j到tr最短的簇,重新计算每个簇的簇心end while
根据式(2)计算E个簇两两之间的SSEend for
选择最小的SSE作为划分的簇
end while
end for
其次,基于分簇结果,采用Q‑learning算法作为增强型解决方案合理高效地配置资源来最大化系统性能,具体包括:
借助Q‑learning算法来实现最优资源调度;算法模型由以下参数构成:S={s1,s2,s3,…}表示个体状态集合;行为集合为A={a1,a2,a3,…};Q函数Q(s,a)矩阵中元素代表状态与行为一一对应的值;折扣因子θ反映未来回报相对当前回报的重要性且满足0<θ<1;
学习速率δ定义为当前学习知识对先前学习知识的影响;策略π;回报函数r(s,a);每个个体与环境交互得s∈S,按照策略π选择行为a∈A并继续与环境交互,随之更新s′∈S,同时产生回报函数r(s,a)反馈给学习个体,个体据此更新π和Q函数,经过多次学习后收敛,个体可以*
找到最优策略π使优化目标达到最大,预期累计奖励函数 由下式给出:其中, 表示t时刻采用策略π得到的回报;最优策略 假设在st状态下采取行为at后,状态变为st+1,则依据贝叶斯最优准则,矩阵Q(s,a)可更新如下:* *
Q(s,a)=E{rt+1+θmaxa′Q(st+1,a′)|st=s,at=a}根据t时刻状态对{st,at}得到的回报函数rt,预测t+1时刻状态st+1,并更新Q矩阵如下所示:
讨论一个分布式场景,每个车辆无从得知其他车辆信息,系统经过学习来更新行为和回报函数使性能资源配置最佳;为了在兼顾效率的同时遍历所有(s,a),在迭代过程中采用ε贪婪算法来选择行为,用信道与功率矩阵表示每个车辆i的行为,即ai=[ai,channel,ai,power],定义行为函数:由上式可知,车辆以1‑ε的概率选择使Q矩阵值最大的行为,而选择其他行为时服从均匀分布,将每次车辆选择的行为索引为状态矩阵,以此得出t时刻回报函数ri,t,将ri,t定义为车辆当前吞吐量Ri,t与最大吞吐量比值:其中, 是车辆发射功率为最大且无干扰状态下的吞吐量,即最大吞吐量;分布式无状态Q学习详细步骤如下:
103‑3‑A:输入:可用信道channel,可用功率power,SINR,
1 2 E i 1 2 3 G{U,U,…,U},U={x,x,x,…,x}
103‑3‑B:输出:每个车辆吞吐量Ri,t
103‑3‑C:初始化:t=1;折扣因子θ;学习率δ;探索速率ε;Q=0;最大迭代次数max_convergence_timefor e=1:1:E
while t<max_convergence_time+1顺序排列每一个车辆
for g=1:1:G
g
根据式(4)给车辆x选择行为ag=[ag,channel,ag,power],更新状态矩阵S更新
根据式(5)计算回报函数
根据式(3)更新Q矩阵
end for
g
计算车辆x的遍历吞吐量
t=t+1
end while
end for
在基于分布式无状态Q‑learning的资源分配策略中,假设每个车辆按顺序选择行为,在每次学习迭代时,以有序的方式进行资源分配,因此每次迭代时首先选择行为的顺序在其开始时随机选择,车辆根据初始化参数决定当前所有可能行为以及下一刻行为A={a1,a2,a3,…},得出状态矩阵S,更新Q(s,a)矩阵,基于此,车辆以1‑ε的概率在所有可能状态中选择使Q值达到最大的行为,计算即刻回报函数,更新探索速率ε,继续执行下一次学习直至收敛或达到最大收敛次数。