1.基于DDQN的TSN路由选择方法,其特征在于,包括以下步骤:构建基于SDN的多控制器协作TSN网络模型,将转发平面的路由根据车间情况划分为以车间为单位的多个区域,以路由器端口为节点构建转发平面网络拓扑的数学模型;
构建TSN网络中路由选择问题的马尔可夫决策模型,确定状态空间、动作空间和奖励函数;
获取业务流信息,搜索所有流的可达路径放入候选路径表中备用;
基于转发平面网络拓扑的数学模型,根据候选路径表,利用现有TSN路由算法为业务流初始化路由路径形成初始化网络;
所述控制器作为智能体,基于转发平面网络拓扑的数学模型和马尔可夫决策模型,以最小化平均端到端时延为优化目标,以各业务流时延要求为约束,利用DDQN算法对初始网络进行优化训练,得到各业务流的最佳路由选择策略;
控制器根据最佳路由选择策略为各业务流分配路由路径,并下发至转发平面;
若拓扑或业务流信息发生改变,则更新网络资源占用信息并重新优化训练。
2.根据权利要求1所述的基于SDN的多控制器协作TSN网络模型,其特征在于,包括控制平面的多个控制器、转发平面的路由拓扑和应用平面,所述控制器分为一个集中控制器和多个子控制器,可获取所述路由拓扑信息,其中,每个子控制器对应一个车间,集中控制器与所有子控制器相连,可掌控全局信息。
3.根据权利要求1所述的车间情况,其特征在于,是指现场设备存在于不同车间,依据其特点对转发平面的路由进行区域划分,将一个车间划分为一个区域。
4.根据权利要求1所述转发平面网络拓扑,其特征在于,数学模型为基于区域划分的有序二元组(V,E),记为图G=(V,E),其中,V={v1,v2,...,vn}定义路由器端口的集合,E={e1,e2,...,em}定义路由器端口与端口之间的链路集合,链路是双向的,点集V中各点之间的距离用距离矩阵 表示,其中wij表示节点i和节点j之间的距离,其中,
5.根据权利要求1所述马尔可夫决策过程,其特征在于,在每个离散的时间步长t处,智能体观察环境的状态st,并根据其策略执行一个动作,然后收到一个及时奖励,环境进入下一个状态st+1,转换过程定义为四元组
6.根据权利要求1所述业务流信息,其特征在于,包括流周期Tk、数据包大小Mk、截止时间Dk、优先级PRk起始点PSk和终点PEk,其中下标k为流标志,表示业务流fk∈F的流信息。
7.根据权利要求1所述可达路径,其特征在于搜索从起始点到终点的所有可达链路,并将其放入所述候选路径表中备用,其中,每个业务流均有一个对应的候选路径表。
8.根据权利要求1所述获取拓扑和业务流信息,其特征在于,需要检验拓扑是否变化,若拓扑发生变化,则重新搜索所有业务流的可达路径并生成对应的候选路径表,若拓扑未发生变化,则仅生成新增业务流的候选路径表,其他业务流仍沿用原有候选路径表。
9.根据权利要求1所述利用现有TSN路由算法为业务流初始化路由路径形成初始化网络,其特征在于,当前网络环境st下,利用现有TSN路由算法依次对业务流分配初始路由路径,每分配好一条流的路径便依据其路由及调度方式更新模拟网络的资源占用信息,直到为所有业务流分配得到初始路径。
10.根据权利要求1所述利用DDQN算法对初始网络进行优化训练,其特征在于,首先对网络中的所有业务流按照优先级降序排列,得到待训练流的顺序表,其次按照所述顺序表,对表内业务流依次进行优化训练得到优化路由路径,其中,优化训练当前流之前,先去除其初始路由策略对网络资源的占用,更新网络资源占用信息,其中,所述当前流指某正在训练的业务流,最后对所述当前流进行优化训练时,首先判断其起始点和终点是否属于同一区域,若属于同一区域,则将其初始化路由路径作为优化后路由路径;若属于不同区域,则在同一区域内使用子控制器计算路由路径,跨区域传输时集中控制器协调子控制器利用DDQN算法为当前流计算优化路由路径。
11.根据权利要求1所述DDQN算法,其特征在于,以最小化端到端时延为目标、以流的时延要求和训练时间不小于超周期为约束,利用DDQN算法计算最优路径,在DDQN中,Q网络被建模为:Qη,α,β(s,a)=Vη,α(s)+Aη,β(s,a)(6),其中,Vη,α(s)为状态价值函数,Aη,β(s,a)为该状态下采取不同动作的优势函数,η是状态价值函数和优势价值函数共享的网络参数,α和β分别为状态价值函数和优势价值函数的参数。
12.根据权利要求1所述优化训练,其特征在于,停止条件是,网络中所有业务流的平均端到端时延趋于稳定,即达到最小值。