知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于强化学习蟑螂算法的机器人路径规划方法

￥20900

专利号： 2017102426572

申请人：淮安信息职业技术学院

专利类型：发明专利

专利状态：已下证

专利领域：测量；测试

更新日期：2025-05-09

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.基于强化学习蟑螂算法的机器人路径规划方法，其特征是方法包括如下步骤：步骤1：对工作空间建模，生成栅格地图，并完成栅格地图初始化，包括起点单元格S、终点单元格T和每个单元格初始信息素浓度；对工作空间建模，具体包括：通过密度为X×Y的栅格对真实工作空间进行建模，生成栅格地图，完成栅格地图的初始化；栅格地图中的所有单元格cθ构成集合Map，Map＝{cθ|θ＝1,2,…,X×Y}；将栅格地图置于直角坐标系中，每个单元格cθ的空间位置由其左下角的坐标(x,y)唯一标记，这里x＝1…X,y＝1…Y；在栅格地图中，可行单元格标记为“1”，障碍物单元格标记为“0”；在栅格地图中标记出起点单元格S和终点单元格T；为每个单元格设置相同的初始信息素浓度，初始信息素浓度计算方法为：phθ＝1/(X×Y)，θ＝1,2,…,X×Y；

步骤2：基于步骤1所建的栅格地图完成初始搜索，在栅格地图中的起点S生成一个规模为W的蟑螂种群，综合运用随机搜索与贪婪搜索，完成算法的初始搜索过程，并产生Q条可行路径；蟑螂群的初始搜索过程，具体包括：种群中第i只蟑螂个体被记为roachi，i＝1,2…W,这里W为蟑螂群规模；roachi每一步向前行进一个单元格，在第t步时，也即行进了t个单元格，所行进的路径被记为有序集合Pi＝{pi1,pi2,…,pit}；pit表示第i只蟑螂第t步所在的单元格；蟑螂下一步行进的单元格pit+1的计算方法为：where:

j＝1,2...M；i＝1,2...W

其中，Fit表示roachi在t步时的可行域集合，Fit由roachi当前位置单元格pit相邻的九个单元格中的可行单元格fj构成，但不包含单元格pit-1；集合Fit表示为：Fit＝{fj|j＝1…M,M≤8,fj≠pit-1}

r0是一个随机产生的阈值，且r0～U(0,1)，蟑螂个体每行进一步r0都被从新计算；

Min{cθ|cθ∈Fit}属于贪婪搜索，表示pit+1将选择可行域集合Fit中距离起点位置T欧式距离最短的单元格；

Rand(cθ|cθ∈Fit)表示pit+1将随机选择可行域集合Fit中的一个单元格；

当Fit中包含终点单元格T则一条可行路径被发现；

当整个种群寻找到Q条可行路径时，算法初始搜索完成；

步骤3：根据步骤2所产生的Q条可行路，更新栅格地图中的信息素浓度；信息素浓度更新，具体包括：根据生成的Q条可行路径，更新栅格地图中单元格的信息素浓度；单元格的信息素浓度由经过该单元格的最短路径长度计算得出；假设经过单元格cθ的最短路径长度为ω，那么，cθ的信息素浓度phθ的更新方法为：步骤4：蟑螂个体通过强化学习策略，完成路径搜索；蟑螂个体记录其搜索到的当前最优的个体路径，根据最优个体路径动态实时更新栅格地图信息素浓度；通过个体最优路径实时更新种群最优路径；种群搜索过程中，引入淘汰机制，对于一定步数内仍未发现可行路径的蟑螂，其本次搜索行为将被终止，该蟑螂从起点从新搜索；使用强化学习策略完成最优路径搜索，具体包括：整个种群发现的当前种群最优路径被记录为Pbest，roachi发现的当前个体最优路径被记录为Pathi；Pbest的计算方法为：Pbest＝Opt{Pathi|i＝1…W}

初始搜索的步骤2和信息素更新的步骤3完成后，整个种群通过强化学习策略完成最优路径搜索，蟑螂个体roachi的t+1步行进策略如下式所示：where:

j＝1，2M...M；i＝1，2...W

其中r1～U(0,1)，Rein{cθ|cθ∈Fit}表示通过强化学习策略得到一个单元格作为pi’t+1；

具体计算过程为：按信息素浓度由低到高依次对Fit中的M个单元格设置权重，其中信息素浓度最低的权重设置为：δ1＝10，第二低的权值为：δ2＝20，余下的值通过斐波那契数列计算得出，排序为n的单元格权重δn＝δn-1+δn-2；

根据单元格权重，计算其各自的权重空间，s1＝10，排序为n的单元格的权重空间为sn＝δn–δn-1；

按权重排序，最后一个单元格的权重为δM，在1到δM之间取一个随机整数r2＝rand(1，δM)；如果r2∈sn，则sn单元格被选择作为下一步行进的单元格；

roachi从起点S到终点T的爬行过程中，如果Pi中的单元格数量大于Pathi中单元格的数量，则引入淘汰机制，roachi的当前搜索被终止，返回起点S从新爬行搜索；

roachi从起点S到终点T爬行完毕后，此时Pi中的单元格数量应小于或等于Pathi中单元格的数量，意味着一条可行路径Pi被发现；如果Pi优于roachi的个体最优路径Pathi，则Pathi被更新，过程如下：Pathi＝Opt{Pi，Pathi}

当Pathi被更新，则比较Pathi和Pbest，完成Pbest更新，过程如下：Pbest＝Opt{Pbest，Pathi}

当Pathi被更新，则Pathi路径上的所有单元格信息素浓度需完成动态更新，假设Pathi更新后的路径长度为τ，更新公式为：where

θ＝1,2,...,X×Y

在算法执行过程中，整个Map信息素被动态实时更新；