1.一种M2M通信中基于深度强化学习的资源调度方法,其特征在于,包括:建立TD‑LTE系统模型,确定所述系统当前的资源映射状态,并将所述当前的资源映射状态转化为图像;
接收待处理的业务作业;
根据所述当前的资源映射状态,以及所述待处理的业务作业,通过预先训练好的深度强化学习神经网络,向所述待处理的业务作业分配资源;
根据分配结果,对所述当前的资源映射状态进行调整;
根据所述当前的资源映射状态,以及所述待处理的业务作业,通过预先训练好的深度强化学习神经网络,向所述待处理的业务作业分配资源,具体包括:将所述当前的资源映射状态,以及所述待处理的业务作业输入深度强化学习神经网络中,从所有可执行的资源分配动作中,确定对应Q值最高的可执行的资源分配动作;
根据所述Q值最高的可执行的资源分配动作,向所述待处理的业务作业分配资源;
记录所述资源映射状态、可执行的资源分配行为和对应的奖励信息,并计算对应的累积奖励;
所述累积奖励通过以下方式计算得到:其中,l∈集群中的所有机器,i1∈所有计划的作业机器l,j∈队列中的所有业务作业,k∈队列中的所有作业积压,αl、β、γ为预设参数;
接收待处理的业务作业,具体包括:接收待处理的业务作业;
确定不同业务分别对应的作业队列;
将接收到的待处理的业务作业放入相应业务的作业队列中。
2.根据权利要求1所述的方法,其特征在于,所述深度强化学习神经网络通过以下方式获得:
以卷积神经网络作为强化学习中的值函数;
将资源映射状态图与资源分配动作输入卷积神经网络中,提取所述资源映射状态图的特征,确定所述资源映射状态图、资源分配动作与对应的Q值之间的相关性。
3.根据权利要求2所述的方法,其特征在于,所述值函数为:Q(s,a)=E[r+μmax(s′,a′)∣s,a]其中,s表示状态,a表示动作,r表示奖励,μ表示折扣因子。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:从存储中随机抽取经验样本ek=(sk,ak,rk,sk+1),用于卷积神经网络的训练,其中,sk表示资源占用状态,ak表示资源分配动作,rk表示立即奖励,sk+1表示状态转换。
5.根据权利要求1所述的方法,其特征在于,确定不同业务分别对应的作业队列,具体包括:
针对不同业务,确定该业务对应的不同类型的作业方法、各作业方法对应的作业队列,以及各作业队列对应的权重;
向所述待处理的业务作业分配资源,具体包括:根据若干待处理的业务作业各自所在的业务队列的权重,确定向相应业务作业分配资源的优先级。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:若对应的作业队列已满,则将待处理的业务作业放入预设的动作空间中等待。
7.一种M2M通信中基于深度强化学习的资源调度装置,其特征在于,包括:建立模块,建立TD‑LTE系统模型,确定所述系统当前的资源映射状态,并将所述当前的资源映射状态转化为图像;
接收模块,接收待处理的业务作业;确定不同业务分别对应的作业队列;将接收到的待处理的业务作业放入相应业务的作业队列中分配模块,根据所述当前的资源映射状态,以及所述待处理的业务作业,通过预先训练好的深度强化学习神经网络,向所述待处理的业务作业分配资源;将所述当前的资源映射状态,以及所述待处理的业务作业输入深度强化学习神经网络中,从所有可执行的资源分配动作中,确定对应Q值最高的可执行的资源分配动作;根据所述Q值最高的可执行的资源分配动作,向所述待处理的业务作业分配资源;记录所述资源映射状态、可执行的资源分配行为和对应的奖励信息,并计算对应的累积奖励;
调整模块,根据分配结果,对所述当前的资源映射状态进行调整;
所述累积奖励通过以下方式计算得到:其中,l∈集群中的所有机器,il∈所有计划的作业机器l,j∈队列中的所有业务作业,k∈队列中的所有作业积压,αl、β、γ为预设参数。