1.面向移动边缘计算的车联网任务卸载与资源分配策略,其特征在于,包括以下步骤:步骤101:构建基于MEC服务的车辆网络;
步骤102:确立通信模型建立目标规划问题;
步骤103:最大化V2I链路遍历容量,并保证V2V链路可靠性问题,具体由三个步骤组成:首先联合建模容量和时延因子作为K-means算法特征输入进行分簇,从而确定车辆通信模式;最后基于分簇结果,采用Q-learning算法作为增强型解决方案合理高效地配置资源从而最大化系统性能。
2.根据权利要求1所述的面向移动边缘计算的车联网任务卸载与资源分配策略,其特征在于,所述步骤101构建基于MEC服务的车辆网络框架包括:考虑RSU与WiFi节点共存的V2X异构网络场景,MEC服务器部署于RSU侧,采用正交频分多址(OFDMA)来支持由RSU控制的授权频带中的车辆多路访问,对于非授权频带,采用载波侦听多址接入和冲突避免(CSMA/CA)机制实现与WiFi共存的模式,车辆密集部署且服从泊松分布,任务类型不同的车辆其通信模式不同,这里将车辆分为四种类型,授权频带中存在需要高容量V2I通信的M个车辆(CUE),表示为C={1,2,L,M},以及对时延要求高的K个V2V车辆(DUE),用D={1,2,L,K}表示,在WiFi节点与LTE-U共同部署的通信范围内,有U个WiFi用户(WUE)将任务卸载到WiFi节点,WiFi用户集合为W={1,2,L,U},在WiFi与RSU覆盖范围重叠区域的V2V车辆(VUE)表示为V={1,2,L,L};
CUE因计算能力有限,计算任务ni需要通过RSU卸载到MEC服务器,由MEC服务器计算后将结果回传,任务上传需要RSU调度正交的资源块RB,RSU总的频率资源表示为R={1,2,L,F},DUE能有效利用V2V链路的可靠性优势,将任务卸载到周边车辆进行计算;离CUE较远的DUE复用CUE的RB,因此与CUE存在一定的同层干扰,而离CUE较近的DUE使用与CUE正交的RB,关于LTE-U技术,接入信道间隙可分为竞争期(CP)和静默期(CFP),在CP期间,VUE通过LTE-U技术与WUE竞争非授权频谱,然而在CFP期间VUE可以充分利用基于LTE-U技术的非授权频谱,本文主要对基于CFP的LTE-U模式进行分析,VUE使用CA技术复用授权频谱和非授权频谱,从而提供系统容量,不难得出,VUE任务类型对时延有较高的容忍度;
假设本文中的所有车辆都配备单个天线,为了提高频谱利用率,DUE复用部分CUE上行链路的RBf,因此DUE与CUE之间存在干扰,而VUE在基于CFP的LTE-U技术支持下,复用授权频带CUE的RBf,因此CUE与VUE之间也存在干扰,因为RSU集中调度正交RB,所以我们假设VUE与DUE之间不存在干扰;
我们考虑到基于瞬时信道统计信息(CSI)进行资源管理时无法及时跟踪快速变化的无线信道,本文考虑缓慢衰落参数和CSI,定义CUEm与RSU之间信道增益hB,m如下:其中,gB,m表示小尺度快速衰落功率参数,服从指数分布,βB,m是标准偏差为ζ的对数正态阴影衰落随机变量,A是路径损耗常数,Lm,B是第m个CUE与RSU之间的距离,α为衰减指数,第k个DUE到RSU的信道增益hB,k以及从第m个CUE到第k个DUE的干扰信道增益 的定义表达式与hB,m类似,假设信道的大尺度衰落分量在RSU处是已知的,因为它们通常取决于用户的位置,基站可以预测V2I车辆衰落参数,V2V车辆的衰落参数在接收车辆处检测得到并定期报告给RSU;
对于资源块f,CUEm在RSU侧接收SINR(信干噪比) 表示为:其中, 与 分别表示CUEm与DUEk的发射功率,σ2为噪声功率,ρk,m=1表示第k个DUE复用第m个CUE的RB,否则为0;同理,可类似定义DUEk在RSU侧接收SINR 以及非授权频带中V2V链路的VUEl复用CUEm的资源块f'时的接收SINR因此,用b0表示授权频带每个RB的带宽,b1表示非授权频带每个RB的带宽,则CUEm、DUEk、VUEl的容量 分别表示为:本文没有考虑VUE与WUE之间的干扰,只考虑VUE复用CUE资源时两者之间的干扰;
现有的物理层信道模型无法明确度量QoS,因此结合时延因子形成有效容量(EC)的链路层信道模型来量化QoS,用累积量生成函数表示容量与时延如下:-ψQ(t)
EC(ψ)=logE{e }
其中,ψ为时延因子, 表示帧持续时间t内容量R(t)累积和,考虑到信道系数在t内保持不变并且对于每个帧独立变化的情况,在持续时间t内容量为一常量R,EC可表示为:EC(ψ)=log E{e-ψtR}
因为信道是缓慢变化的,因此定义车辆可容忍的时延满足以下公式:
式中,Emax表示车辆可以容忍的最大时延,从上式可以看出,ψ越大表示链路质量越好,当ψ≈0时,EC收敛于遍历容量。
3.根据权利要求1所述的面向移动边缘计算的车联网任务卸载与资源分配策略,其特征在于,所述步骤102确立通信模型建立目标规划问题,建立目标优化问题;针对不同类型链路的差异化需求,即大容量的V2I链路和高可靠性的V2V链路需求,我们制定有效策略来最大化V2I总遍历容量,同时保证每个V2V链路的可靠通信,本文通过控制中断概率来保证V2V链路的可靠性,设置接收SINR低于预定阈值概率的门限值,系统的遍历容量是通过快衰落的长期平均值来计算的,这意味着在慢衰落的时间范围内码字长度跨越几个相干周期,应该指出,系统性能与遍历容量的接近程度取决于车载信道的时间变化快慢以及可容忍的延迟大小,在给定的时间段内,更快的变化会导致更多的信道状态,这使得系统性能更快地接近计算的遍历容量,因为码字需要遍历大部分(如果不是全部的话)信道状态来平均衰落效应,为此,将车载网络中的无线资源分配问题表述为:s.t.C1:
C2:
C3:
C4:
C5:
C6:
C7:
优化目标的第一部分表示V2I链路没有复用RB的CUE容量,第二部分表示授权频带DUE复用V2I链路RB的容量,第三部分表示频带重叠区域D2D用户即VUE复用V2I链路CUE的RB的容量;C1(C2)通过控制CUE(DUE)的SINR低于设定阈值 的中断概率p0(p1)来保证车辆的QoS;C3、C4和C5分别表示CUE、DUE和VUE的发射功率限定, 表示V2I(V2V)链路上行最大发射功率;C6、C7为通信模式的数学模型,C1(C2)表示表示一个资源块至多可以同时被一个CUE和一个VUE复用,ρm,k表示一个资源块至多同时被一个CUE和一个DUE复用。
4.根据权利要求1所述的面向移动边缘计算的车联网任务卸载与资源分配策略,其特征在于,所述步骤103包括:联合建模容量和时延因子作为K-means算法特征输入进行分簇,从而确定车辆通信模式;其次基于分簇结果,采用Q-learning算法作为增强型解决方案合理高效地配置资源来最大化系统性能;
当车辆部署密度增加时,会有越来越多的D2D对复用CUE资源,随之产生强烈的同层干扰,本节将优化问题分解为模式选择和资源分配两部分,首先联合建模容量和时延因子作为K-means算法特征输入进行分簇,从而确定车辆通信模式;其次基于分簇结果,采用Q-learning算法作为增强型解决方案合理高效地配置资源来最大化系统性能;
K-means作为一种无监督的机器学习算法,广泛用于聚类问题,我们在RSU覆盖范围内结合车辆任务请求类型,依据联合建模后的QoS量化因子EC进行聚类,聚类形成V2I簇与V2V簇,对于V2V簇,建模车辆任务卸载为匹配模型来选择邻近车辆形成D2D对,下面详细介绍基于改进K-means算法的通信模式选择机制:其中,Uj表示第j个簇,E表示最大簇数,num(Uj)表示簇j中车辆数目,Uj的簇心uj可由下式得到:两个车辆基于欧式距离判断两者之间特征差额tr:
其中,xid、xjd表示d维欧式空间中的两个车辆,算法目标是最小化的目标函数平方误差和(SSE),由以下等式给出:利用K-means进行模式选择算法的时间复杂度接近线性,为O(MET),其中M表示车辆的数量,E代表簇的数量,T表示迭代次数,设置最大迭代次数为it,则算法如下:
103-1-A:输入:请求车辆QoS数据集合为{EC1,EC2,L,ECmax},最大簇为E
103-1-B:输出:连簇集合{U1,U2,L,UE},且Ui={x1,x2,x3,L}
103-1-C:所有数据集分为一个簇;
for r=1:it
while num(U)≤E
for i=1:E
随机选择ui作为初始簇心
while ui
根据式(1)计算从车辆j到ui之间的tr,
并划分j到tr最短的簇,重新计算每个簇的簇心
end while
根据式(2)计算E个簇两两之间的SSE
end for
选择最小的SSE作为划分的簇
end while
end for
基于用户QoS的分簇结果,我们提出频谱和功率分配方案以改善车载通信性能;同时考虑到支持D2D的车载网络的独特特性,所提出的方案仅依赖于缓慢变化的大规模信道参数,并且仅需要每隔几百毫秒更新一次,从而与在车辆网络中直接应用传统的资源分配方案相比,显著降低了信令开销,我们借助Q-learning算法来实现最优资源调度;算法模型由以下参数构成:S={s1,s2,s3,L}表示个体状态集合;行为集合为A={a1,a2,a3,L};Q函数Q(s,a)矩阵中元素代表状态与行为一一对应的值;折扣因子θ反映未来回报相对当前回报的重要性且满足0<θ<1;学习速率δ(0<δ<1)定义为当前学习知识对先前学习知识的影响;策略π;回报函数r(s,a);每个个体与环境交互得s∈S,按照策略π选择行为a∈A并继续与环境交互,随之更新s'∈S,同时产生回报函数r(s,a)反馈给学习个体,个体据此更新π和Q函数,经*过多次学习后收敛,个体可以找到最优策略π使优化目标达到最大,预期累计奖励函数由下式给出:其中, 表示t时刻采用策略π得到的回报;最优策略 假设在st
状态下采取行为at后,状态变为st+1,则依据贝叶斯最优准则,矩阵Q(s,a)可更新如下:Q*(s,a)=E{rt+1+θmaxa'Q*(st+1,a')|st=s,at=a}根据t时刻状态对{st,at}得到的回报函数rt,预测t+1时刻状态st+1,并更新Q矩阵如下所示:在这里我们讨论一个分布式场景,每个车辆无从得知其他车辆信息,系统经过学习来更新行为和回报函数使性能资源配置最佳;为了在兼顾效率的同时遍历所有(s,a),在迭代过程中本文采用ε贪婪算法来选择行为,我们用信道与功率矩阵表示每个车辆i的行为,即ai=[ai,channel,ai,power],我们定义行为函数:由上式可知,车辆以1-ε的概率选择使Q矩阵值最大的行为,而选择其他行为时服从均匀分布,将每次车辆选择的行为索引为状态矩阵,以此得出t时刻回报函数ri,t,我们将ri,t定义为车辆当前吞吐量与最大吞吐量比值:其中, 是车辆发射功率为Pmax且无干扰状态下的吞吐量;分布式无状态Q学习详细步骤如以下算法所述,该算法工作在物理层,允许操作当前的MAC层协议,在IEEE
802.11中,信道访问由CSMA/CA机制来控制,因此该算法可以促进物理层资源复用,提高系统性能,具体实现步骤如下:
103-3-A:输入:可用信道channel,可用功率power,SINR,{U1,U2,L,UE},Ui={x1,x2,x3,L,xG}
103-3-B:输出:每个车辆吞吐量Ri,t
103-3-C:初始化:t=1;折扣因子θ;学习率δ;探索速率ε;Q=0;最大迭代次数max_convergence_timefor e=1:1:E
while t<max_convergence_time+1
顺序排列每一个车辆
for g=1:1:G
根据式(4)给车辆xg选择行为ag=[ag,channel,ag,power],更新状态矩阵S更新根据式(5)计算回报函数
根据式(3)更新Q矩阵
end for
计算车辆xg的遍历吞吐量
t=t+1
end while
end for
在基于分布式无状态Q-learning的资源分配策略中,假设每个车辆按顺序选择行为,在每次学习迭代时,以有序的方式进行资源分配,因此每次迭代时首先选择行为的顺序在其开始时随机选择,车辆根据初始化参数决定当前所有可能行为以及下一刻行为A={a1,a2,a3,L},得出状态矩阵S,更新Q(s,a)矩阵,基于此,车辆以1-ε的概率在所有可能状态中选择使Q值达到最大的行为,计算即刻回报函数,更新探索速率ε,继续执行下一次学习直至收敛或达到最大收敛次数。