1.一种基于深度强化学习的虚拟网络功能部署优化算法,其特征在于:该算法在NFV/SDN架构下,当新的业务请求到达时,考虑VNF共享,即一个VNF可以被多条SFC使用;在保证底层物理资源和用户QoS需求的前提下,通过VNF部署和资源分配,实现服务提供商总成本与SFC端到端时延的联合优化;在本方法中,状态空间和动作空间是连续值集合,采用基于深度强化学习的VNF智能部署算法,得到近似最优的VNF部署策略和资源分配策略;
所述NFV/SDN架构包含三层:应用层主要为网络业务流创建SFC,进而通过SFC为用户提供服务;虚拟化层主要负责网络状态监控,以及指导VNF部署;物理层为SFC提供其实例化的物理资源,物理网络主要是由通用服务器和物理链路组成;
所述VNF部署为VNF映射到通用服务器;
所述资源分配为通用服务器分配给映射在其上的VNF CPU资源。
2.根据权利要求1所述的一种基于深度强化学习的虚拟网络功能部署优化算法,其特征在于:所述底层物理资源是指通用服务器的CPU资源和物理链路的带宽资源;所述用户QoS需求是指用户时延不能超过最长容忍时延要求。
3.根据权利要求1所述的一种基于深度强化学习的虚拟网络功能部署优化算法,其特征在于:所述的服务提供商总成本为:VNF的部署成本,VNF的运行成本,以及虚拟链路带宽成本;所述的SFC端到端时延是指:SFC上的VNF的处理时延和虚拟链路的传输时延。
4.根据权利要求1所述的一种基于深度强化学习的虚拟网络功能部署优化算法,其特征在于:所述状态空间为:SFC的达到率,通用服务器剩余CPU资源和物理链路剩余带宽资源;所述动作空间是指VNF部署变量,以及CPU资源分配。
5.根据权利要求3所述的一种基于深度强化学习的虚拟网络功能部署优化算法,其特征在于:所述的VNF的部署成本为:上一个时隙该类型VNF没有部署,当前时刻该类型VNF部署,就会产生VNF部署成本;所述的VNF的运行成本时与VNF的服务速率有关;所述虚拟链路带宽成本是与该虚拟链路上传输的数据量有关;所述SFC上的VNF处理时延是与VNF的总到达率,以及通用服务器分配给VNF的CPU资源有关;所述虚拟链路的传输时延是指,业务流通过每条虚拟链路需要的时间;所述VNF的总到达率为多条被VNF所服务的业务流到达率之和。
6.根据权利要求4所述的一种基于深度强化学习的虚拟网络功能部署优化算法,其特征在于:所述SFC到达率服从泊松分布;所述通用服务器的剩余CPU资源为该通用服务器的CPU容量减去分配给映射在其上的VNF CPU资源;所述VNF部署变量为一个VNF选择一个服务器进行部署的二进制变量。
7.根据权利要求1所述的一种基于深度强化学习的虚拟网络功能部署优化算法,其特征在于:在每个离散的时隙上,根据所述SFC到达率、通用服务器剩余CPU资源以及物理链路剩余带宽资源将VNF部署至目的主机上,并分配给VNF CPU资源,实现服务提供商总成本与SFC端到端时延的联合优化,具体步骤如下:初始化各参数以及系统状态;
在每个调度时隙开始时,收集当前时隙的状态,即各所述的SFC到达率、通用服务器CPU剩余资源信息以及物理链路剩余带宽资源信息;
根据下式选取近似最优的VNF部署动作和分配CPU资源:
其中所述A为:行动空间,即VNF部署二进制变量,以及分配CPU资源;
其中所述γ为:折扣因子,所述Qπ(xt+1,at+1)为:下一时隙的行为值函数;
其中所述rt为:时隙t时的即时回报函数,表示为:
其中所述S(t)为服务提供商的总成本,所述Smax为服务提供商的最大成本值;
其中所述Di(t)为第i条SFC的时延,所述τi为第i条SFC的最长时延要求;
其中所述a1与a2为加权值,满足a1+a2=1;
给定所述VNF部署变量,判断当前所述的VNF部署策略,以及资源分配策略是否满足用户最长时延要求及底层物理资源限制条件;
如果不满足,则重复上述选择最优行为的步骤;如果当前所述的VNF部署和资源分配策略满足约束条件,则将所述VNF部署和资源分配策略通知给每个VNF及通用服务器;
经过数次迭代,判断是否满足收敛条件;
如果不满足收敛条件,则观察下一时隙状态xt+1,重复上述步骤;
按照所述VNF部署和资源分配策略,SFC上的每个VNF部署至指定的底层通用服务器,并分配给其CPU资源;
等待下一个调度时隙。