1.一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,包括:步骤S1、预先构建机械臂抓取目标群体的多个虚拟场景;
步骤S2、建立第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取,训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据;
步骤S3、建立第二类深度强化学习网络对多个样本数据进行特征学习,将其中的相同特征传递正相关反馈至内部网络结构中,并根据网络结构的输出生成最终的多目标抓取规则模型。
2.根据权利要求1所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,所述预先构建机械臂抓取目标群体的多个虚拟场景包括:步骤S100、获取机械臂的型号,并调取该型号机械臂的多项参数,其中,所述多项参数包括自由度数、最大工作半径、手臂最大中心高、手臂运动参数、手腕运动参数、手指夹持范围、定位精度;
步骤S101、建立空白虚拟场景,将该型号的机械臂对应预设的模型放置在所述空白虚拟场景中,并输入对应的多项参数;
步骤S102、通过三维扫描的方式将置物平台上目标群体的外形轮廓进行扫描,并将扫描所得的数据在虚拟场景中进行重现;
步骤S103、确定机械臂与置物平台之间的位置关系,根据所述位置关系将所述置物平台对应设置在所述空白虚拟场景中,构建出单个虚拟场景;
步骤S104、更改置物平台上目标群体的摆放状态,并重复步骤S101至步骤S103构建出多个虚拟场景。
3.根据权利要求2所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,所述确定机械臂与置物平台之间的位置关系包括:步骤S1030、通过预设在所述机械臂上的摄像头对周围环境进行图像采集得到环境图像;
步骤S1031、通过特征匹配的方式确定所述置物平台在所述环境图像中的位置;
步骤S1032、根据置物平台在所述环境图像中的位置确定所述机械臂与所述置物平台之间的简单相对位置关系;
步骤S1033、基于所述简单相对位置关系驱动所述机械臂的末端到达所述置物平台上方,并通过摄像头向下拍摄所述置物平台的表面,得到表面图像;
步骤S1034、根据所述表面图像对机械臂的末端的位置进行细微调整,使得所拍摄的表面图像中置物平台的轮廓与预设的标准轮廓完全重合;
步骤S1035、记录此时机械臂的状态参数,并根据所述状态参数确定所述机械臂与所述置物平台之间的位置关系。
4.根据权利要求1所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,所述步骤S2由多台第一类计算机协同完成;其中,每台第一类计算机各自构建出一个或多个虚拟场景,同时建立对应个数的第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取,训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据;
最终将得到的多个样本数据发送至同一台第二类计算机,并由所述第二类计算机执行所述步骤S3。
5.根据权利要求1所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,所述建立第一类深度强化学习网络针对单个虚拟场景中的目标群体进行多次抓取,训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据包括:
建立由两个并行的DenseNet网络结构组成的第一类深度强化学习网络;
通过所述第一类深度强化学习网络重复执行预设次数的抓取某个虚拟场景中目标群体的抓取工作;其中,
在将所述目标群体中所有物体抓取完毕后,确定一次的抓取工作完成;
在每次抓取工作完成后,记录该次抓取工作中的过程数据,其中,所述过程数据包括每段手臂的位移数据、每个手腕的转动数据、每个手指的夹持力度及运动数据;
统计每次抓取工作中手臂位移总长度、手腕总转动角度、及手指的总运动幅度;其中,以抓取工作中手臂位移总长度更短、手腕总转动角度更小及手指的总运动幅度更小作为工作效率更高的判断标准;
通过所述预设次数的抓取工作对所述第一类深度强化学习网络进行训练得到抓取效率最高的学习网络并将其进行知识蒸馏后作为该虚拟场景对应的样本数据。
6.根据权利要求5所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,所述两个并行的DenseNet网络结构,分别为Behavior网络和Target网络;
其中,Behavior网络输出的是预测估计的Q估计值,Target网络输出的是Q现实值;
通过Huber损失函数计算Behavior网络和Target网络在每次抓取时输出的Q值的误差,通过梯度下降法缩小该误差并更新Behavior网络的参数;
Target网络在预设时间内使用固定的参数值,每循环迭代预设次数后,Target网络的参数与Behavior网络同步一次。
7.根据权利要求5所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,包括:
在执行所述抓取任务执行过程中,采用真实物理引擎模拟目标群体中多个目标物体的运动状态;其中,
在对目标群体中多个目标物体的运动状态进行模拟之前,预先输入多个目标物体各自对应的材料参数。
8.根据权利要求1所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,在对现实的目标物体进行抓取的过程中,对机械臂的手指的抓力进行实时调整,调整步骤如下:
预先设定机械臂的手指在抓取物体时的标准力度;
预先在所述机械臂的每根手指上设置多个压力传感器,通过所述压力传感器实时采集手指的压力数据;
利用多个所述压力传感器在同一时刻采集的多个压力数据形成数据集;
将所述数据集中所存在的大于预设力度的压力数据确定为第一类压力数据;
将所述第一类压力数据中大于或等于所述标准力度的压力数据确定为第二类压力数据;
对所述第二类压力数据所对应的手指的抓取力度进行控制使其逐渐减小,直至该手指上设置的多个压力传感器所采集的压力数据均小于所述标准力度;
利用所述数据集中的第一类压力数据建立抓取力序列,对所述抓取力序列进行离散小波变换得到抓取力序列的高频细节系数;
当所述高频细节系数大于预设的系数阈值时,判断机械臂所抓取的物体有滑动趋势;
当机械臂所抓取的物体具有滑动趋势时,快速增加所有第二类压力数据所对应的多个手指的力度。
9.根据权利要求1所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,还包括在输出生成最终的多目标抓取规则模型之后,对所述多目标抓取规则模型进行实用性判断,判断步骤如下:预先在现实环境中搭建机械臂抓取目标群体的工作场景,包括一个机械臂和分处于两个不同位置的置物平台A和置物平台B,所述置物平台A上放置有目标群体;
将所述多目标抓取规则模型输入所述机械臂;
创建并执行验证工作任务,同时通过预先设置在所述机械臂上的多个传感器记录机械臂的工作过程数据;其中,
所述验证工作任务需要将目标群体从置物平台A到置物平台B之间来回进行预设次数的搬运,将一个置物平台上的所有物体全部从搬运到另一个置物平台视为一次抓取工作完成;
根据所述工作过程数据对每一次抓取工作中所述机械臂的工作效率进行平均计算得到第一工作效率;
通过预先设置在所述置物平台A和所述置物平台B上的三维扫描装置将每一次抓取工作完成后目标群体的外形轮廓进行扫描,并建立验证虚拟场景将扫描所得的数据在验证虚拟场景中进行重现;
建立所述第一类深度强化学习网络针对所述验证虚拟场景中的目标群体进行多次的重复抓取工作,并对每次重复抓取工作的工作效率进行平均计算得到第二工作效率;
对多次抓取工作中的所述第二工作效率求取平均值得到第三工作效率;
计算所述第一工作效率和所述第三工作效率的差值,当所述差值大于或等于预设的差值系数时,确定所述多目标抓取规则模型具有较强的实用性;
当所述差值小于预设的差值系数且大于零时,确定所述多目标抓取规则模型具有较小的实用性;
当所述差值等于或小于零时,确定所述多目标抓取规则模型不具备实用性。
10.根据权利要求9所述的一种基于深度强化学习的机器人抓取多目标物的训练方法,其特征在于,所述验证工作任务步骤包括:首先确定所述置物平台A和所述置物平台B相对于所述机械臂的实际位置关系;
基于所述实际位置关系,执行将目标群体从置物平台A抓取并摆放到置物平台B上的第一任务;
在第一任务执行完毕后,继续执行将目标群体从置物平台B抓取并摆放到置物平台A上的第二任务;
在重复执行预设次数的所述第一任务和所述第二任务后验证工作任务完成;
其中,每执行完一次所述第一任务或所述第二任务后需要更改一次摆放规则;
所述摆放规则为机械臂从一个置物平台抓取物体后向另个置物平台摆放时的摆放方式,预先设定多种的摆放规则。