1.基于信誉值的动态车辆任务与算力匹配方法,其特征在于,包括以下步骤:步骤A、提取某条车道上的车流量的时空特征,预测该条车道在未来某一时刻的交通流量,并得到相应的车辆任务数、算力数和信誉值;
步骤B、根据步骤A所预测的参数,基于强化学习中的DQN模块,对所预测得到的车辆任务数与算力数序列进行动态批次划分,确定强化学习中智能体的状态,动作,并最终确定最佳的分批策略;
在确定分批策略时,具体通过以下方式实现:
B1、将分批过程构建成马尔科夫决策过程M=(S,A,R,T);
·S表示状态空间,其中每个状态s=(c,l)∈S代表一个二部图;
·A表示动作空间,其中每个动作Len∈A代表在当前批次下预切割的长度;
·R表示奖励,用Rt表示从状态(ct,lt)选择动作Lent转换到下一个状态(ct+1,lt+1)所获得的奖励,其含义为对批次内的工人和任务进行匹配后的收益;
·T表示时间,其含义为预测结果的时间段;
B2、利用先分再合思想将整个预测的动态二部图分割为若干单位二部图,并将若干个单位二部图合并为一个批次;
(1)将批次长度范围限定为[lmin,lmax];
(2)对状态以及动作进行定义:(c,l)代表状态,c表示当前批次,l代表当前批次的长度,l∈[lmin,lmax];Len∈[lmin,lmax]代表动作;
(3)确定状态转换机;当智能体处于当前状态(ct,lt),输入动作Lent转换到下一个态(ct+1,lt+1)并获得延时奖励输出Rt;
当lt=Lent时,不扩大当前二部图规模,对其进行分批操作,下一个状态(ct+1,lt+1)=(ct+lmin,lmin)定义为下一个最小批次规模的二部图,延时奖励Rt为对批次内的工人和任务进行匹配后的收益;
当lt<Lent时,(ct+1,lt+1)=(ct+1,lt+1),Rt=0,即当前二部图规模达不到分批的标准,对其进行扩大规模操作,加入一个单位二部图;
当lt>Lent时,下一个状态(ct+1,lt+1)=(ct,lt),Rt=0,即当前二部图规模保持不变;
B3、自适应分批,确定最佳的分批策略;
步骤C、在划分好的动态批次内,使用基于信誉值改进的R‑KM算法,结合工人信誉度以及任务的重要程度进行二部图匹配,实现算力与任务的最优匹配;
实现算力和任务的匹配时,对于通过动态分批产生的长度为lt交通流量子序列,通过获得其算力数、任务数和完成任务的信誉度,进行车辆算力与车辆任务之间的匹配:C1、基于各车辆的算力数、任务数以及信誉度,生成提供算力车辆与任务需求车辆之间的权重矩阵:若任两辆车满足供方的算力数大于等于需方的任务数,则取二者间的权值为任务数与信誉值的加权和;若不满足,则认为无法完成任务,即二者无法完成匹配,取二者间的权值为0;从而得到供方车辆与需方车辆之间的权重矩阵;
C2、对于供方车辆与需方车辆,基于权重矩阵进行匹配,匹配使用基于信誉值改进后的R‑KM算法,以匹配后的权重和作为奖励;其中,基于信誉值改进后的R‑KM算法原理如下:(1)依次将该批次内的交通流量序列分别作为二部图左顶点和右顶点;
(2)基于权重矩阵初始化任意左右顶点间的权值,进而对左右顶点值进行初始化,左顶点初始值取与其相关联的最大的边的权值,右顶点初始值为0;
(3)各左右顶点初始化完成后,使用匈牙利算法进行完备匹配,并判断是否能实现完备匹配,若能实现,则匹配完成,并返回匹配权重和;若不能,则修改无法完成完备匹配的左右顶点值,左顶点减1,右顶点加1,之后再次使用匈牙利算法进行完备匹配;
(4)最终实现完备匹配,得到匹配权重和,并将其作为匹配收益奖励。
2.根据权利要求1所述的基于信誉值的动态车辆任务与算力匹配方法,其特征在于:所述步骤A中,在预测参数时,基于深度学习中的Conv‑GRU模块实现:首先对输入数据进行卷积处理,提取输入数据特征,然后再输入GRU模块进行交通流量预测,从而预测出未来交通流量数据以及每辆车的任务数、算力数以及信誉值。
3.根据权利要求2所述的基于信誉值的动态车辆任务与算力匹配方法,其特征在于:所述B3、自适应分批,确定最佳的分批策略通过以下方式实现;
(1)规定最小批次状态为当前状态,将当前状态的特征向量输入到深度神经网络中,输出为当前状态下的所有价值动作函数值Q(s,len|θt),并确定当前状态下的动作Lent;
(2)在当前状态下,当动作符合一定的约束后,智能体执行相应动作并进入到下一状态,得到延时奖励、获得样本et=(st,lent,Rt,st+1,dt),在每轮迭代完成后,一起将该轮迭代中的所有时间步t的et=(st,lent,Rt,st+1,dt)作为该轮迭代的五元组写入经验回放池中;
(3)从经验回放池中抽取一定数量的样本并使用随机梯度下降算法更新网络参数θ,DQN使用卷积神经网络近似表示当前的值函数,并使用另一个网络近似产生目标函数 值,将 作为目标值网络的输出结果,目标函数 值用下列公式近似表示:通过最小化当前Q值和目标 值之间的均方差损失函数来更新当前网络的参数;
2
L(θt)=Es,l,R,s'[(Yt‑Q(s,len|θt)) ] (14)(4)判断是否需要跟随更新目标网络的参数,并判断是否进入到下一轮迭代。