1.一种基于负载均衡的服务功能链重配置方法,其特征在于:该方法在每个离散时隙上,监测网络中已部署服务功能链SFC的无线速率需求变化,对其无线接入端的子载波资源、虚拟网络功能VNF实例上的计算资源以及有线链路带宽资源进行重配置,以达到新的速率需求;该方法以最小化VNF迁移开销为目标,为SFC制定合适的VNF迁移策略,使网络中的服务器处于正常的负载状态,以保证网络整体的稳定性并可节约服务器资源,具体包括以下步骤:
S1:以用户可达的无线速率作为SFC资源分配的依据,即SFC各个VNF实例所需的处理速率和链路传输带宽与用户可达的无线速率一致,建立在动态的SFC无线速率需求下,以服务器负载均衡要求和SFC性能需求为约束的VNF迁移开销最小化模型;
S2:动态变化的SFC无线速率需求具有马尔科夫性,为在每个时隙寻找最佳的子载波资源重配置和VNF迁移策略,将优化模型转化为离散时间下的马尔科夫决策过程MDP;
S3:建立基于DuelingDQN强化学习框架的SFC重配置方法解决MDP问题,从而针对每个时隙不同的SFC速率需求制定最佳的子载波资源重配置以及VNF迁移策略;
在所述步骤S2中,用户SFC的无线速率需求是动态变化的,且具有马尔科夫性,将优化问题转化成一个离散时隙的MDP问题,从而利用强化学习算法框架求解,具体包括:MDP模型用一个四元组<S,A,Pr,r>表示,其中S表示状态空间,其状态由每个SFC的速率需求组成,即st=(C1(t),C2(t),...,C|F|(t));A表示动作空间,其动作由子载波的重分配和VNF迁移变量组成,即 其中W(t)表示子载波重配置矩阵, 表示VNF迁移变量;Pr表示状态转移概率,本模型中的状态为每个SFC的速率需求,其状态转移概率不可预知,则将Pr视为未知量;r表示奖励函值,在一个状态执行某个动作,环境会进入下一个状态,并得到一个奖励值,智能体通过这样不断地与环境进行交互,从而学习获得最高奖励值的动作策略;本模型中的奖励值设为迁移开销的相反数,即rt=‑Cm(t),其中Cm(t)为系统在t时隙的总迁移开销;
在所述步骤S3中,根据步骤S2中建立的MDP模型,得到一个强化学习框架,其智能体在每个时隙开始时观察环境的状态st,并执行一个动作at,智能体会得到一个奖励值rt,强化学习的目标即为找到一个策略a=π(s),使得从当前状态采取某一动作后执行该策略得到π
的累计折扣奖励的期望值最大,该期望值被称为状态动作值函数Q (s,a),其表达式为:其中,λ∈(0,1)为权衡各个时刻奖励值的折扣因子;
* π
定义最优Q值为Q(s,a)=maxπQ(s,a),策略a=π(s)表示为a=argmaxa'Q(s,a');
在本方法中,所用的DuelingDQN强化学习算法为深度Q网络DQN算法的改进,在Dueling π π π π π
DQN中,神经网络Q值被定义为状态值函数V (s)与优势函数A (s,a)之和:Q (s,a)=V(s)+Aπ
(s,a),其中,状态值函数V (s)为在状态s下执行策略π得到的累计折扣奖励的期望值,表示π π π π π
为Q (s,a)在动作空间A上的均值,即V (s)=Ea~π(s)[Q (s,a)],优势函数A(s,a)为V (s)与Q(s,a)之差,其意义为某特定动作a相对于状态s上的好坏程度,且易得A(s,a)在状态空间上的均值为0;这样将Q值设置为V值与A值之和的好处在于,分别学习某一状态对于环境的影响和某个特定动作在某一状态下的相对优势,然而,用V值和A值直接相加的得到Q值有一个缺陷:给定一个Q值,无法得到唯一的V和A,就不能知道是状态的影响,还是动作的影响,为解决这一缺陷,将A值减去一个固定的常量,使之表示为一个相对的优势值,将最终的Q值改写为: Dueling DQN中神经网络的训练方式与DQN中相同,通过经验回放和固定目标网络输出损失函数,利用梯度下降法更新神经网络的参数;当训练完成后得到神经网络的参数,则根据当前状态得到最大Q值的SFC重配置策略,即a=argmaxa'Q(s,a')。
2.根据权利要求1所述的一种基于负载均衡的服务功能链重配置方法,其特征在于:在所述步骤S1中,SFC的流速率是指VNF实例的处理速率和传输速率,以用户可达的无线速率作为SFC的流速率,对SFC中的VNF分配相应的计算资源和有线链路带宽资源;
建立在动态变化的SFC无线速率需求下的VNF迁移模型,在保证物理网络上各个服务器负载均衡以及服务请求性能需求的前提下,以小基站子载波资源容量、服务器计算资源容量以及链路带宽资源容量为约束,以最小化迁移开销为目标,寻找合适的子载波重配置和VNF迁移策略;所述的VNF迁移开销定义为VNF当前来处理流量与迁移跳数的乘积。