欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020113831808
申请人: 天津理工大学
专利类型:发明专利
专利状态:已下证
专利领域: 医学或兽医学;卫生学
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度强化学习的外骨骼主助力参数优化的方法,其特征在于它包括以下步骤:(1)确定优化参数;

根据外骨骼助力曲线方程确定优化参数,该曲线方程为公式(1)所示复合正弦曲线形式:*

式中,Fassist为实时助力大小,A为摆动相助力幅值,t是当前时刻到助力开始时刻之间时间,Tb为当前步态周期的摆动相周期,α是为外骨骼主助力参数,作为公式(1)的波形控制参数,起改变助力峰值位置的作用,取值范围为‑1≤α≤1;

(2)设定参数:

设定外骨骼穿戴者每次行走时间间隔为T=5~7s,可适当增加时间间隔,保证外骨骼穿戴者能够步行至少3步,用于获取当前步态周期的摆动相周期,而且需使外骨骼穿戴者结束每次行走时间间隔时能够平稳站立,且每次前进后外骨骼重新判断助力情况;预先设置最大情节数E、批次抽样数量N及每情节最大时间轮Tmax;

(3)设计深度确定性策略梯度方法中的标准配置,具体包括对策略网络及评价网络的μ μ'设计;其中,所述策略网络包括在线策略网络μ(s|α)和目标策略网络μ(s|α );所述评价网Q Q'络包括在线评价网络Q(s,a|a)和目标评价网络Q(s,a|α);

(4)从1到E对情节数e进行枚举,即对外骨骼主助力参数α进行E次收敛,每一情节开始时可获得初始时刻外骨骼的状态;

(5)获取初始状态:

当步骤(4)中的每一情节开始时,需要令外骨骼穿戴者在无助力情况下正常行走T的时间间隔,并获取其外骨骼的状态作为t=1时刻的初始时刻外骨骼的状态s1,具体包括初始时刻摆动相助力幅值A1、初始时刻外骨骼穿戴者髋关节的屈曲角度θ1、初始时刻步态周期T1、初始时刻步态周期的摆动相周期Tb1、初始时刻步态周期下髋关节的最大屈曲角θmax,1、初始时刻步态周期下髋关节的最小屈曲角θmin,1;

(6)将时间轮从1到Tmax进行枚举,在每一时间轮开始时记录t时刻,所述枚举时间轮即在每一情节数中进行Tmax次步骤(7)至步骤(13),目的是在每一情节下外骨骼执行由在线策略网络选取Tmax次外骨骼的动作,从而产生数据集用于参数训练,提高训练结果的可靠性;

而且Tmax的值取的越大则枚举的次数越多从而产生的数据越多,目的是使优化的参数能够收敛;

(7)所述在线策略网络根据(6)式选择t时刻外骨骼的动作:

at=μ(st|αμ)+Noise    (6)

其中,Noise是用于扩大取值范围,使得选取t时刻外骨骼的动作的范围更大;

(8)外骨骼执行步骤(7)选取的动作,外骨骼穿戴者根据外骨骼执行的动作持续一次T的时间间隔,可以得到柔性外骨骼反馈的标量化奖赏rt和下一时刻的外骨骼状态st+1;

(9)状态转换过程:

将t时刻外骨骼的状态st、步骤(7)得到的t时刻外骨骼的动作at、步骤(8)得到的t的下一时刻外骨骼的状态st+1及柔性外骨骼反馈的标量化奖赏rt,作为一个训练数据集存入经验回放池R中用于参数训练;

(10)随机采样N个步骤(9)状态转换过程作为一个批量训练数据进行参数训练;

(11)执行完步骤(7)到步骤(10)即完成一次时间轮,枚举结束,并令时间轮加1,继续执行步骤(7)到步骤(10);直到策略网络和评价网络中各个网络的参数实现收敛,令本发明基于深度强化学习方法所要优化的外骨骼主助力参数α等于策略网络中目标策略网络的目标μ' μ'策略网络参数α ,策略网络中目标策略网络的目标策略网络参数α 收敛,即代表在此情节数下本发明基于深度强化学习方法所要优化的外骨骼主助力参数α收敛,外骨骼穿戴者的步行比稳定在设定好的健康老年人步行比,则结束当前情节数,进行下一次情节数;

(12)执行完步骤(5)到步骤(11)即完成一次情节数e,枚举结束,并令e=e+1,继续执行步骤(5)到步骤(11);直到每次情节数结束,策略网络中目标策略网络的目标策略网络参数μ'α 都收敛在同一个值,即代表外骨骼主助力参数α都收敛在同一个值,则视为基于深度强化学习方法所要优化的外骨骼主助力参数α完成,可利用该外骨骼主助力参数α实现外骨骼最佳助力,使外骨骼穿戴者的步行比始终稳定在设定好的健康老年人步行比,实现外骨骼穿戴者的康复运动。

2.根据权利要求1所述一种基于深度强化学习的外骨骼主助力参数优化的方法,其特征在于所述摆动相助力幅值A由助力元器件的额定输出值决定,且在助力元器件额定工作下,摆动相助力幅值为已知值,可人为设定;所述当前步态周期的摆动相周期Tb是利用MEMS姿态传感器采集该穿戴者行走时的髋关节屈曲角参数,以获取穿戴者髋关节的屈曲角参数曲线,采取屈曲角参数曲线中前三个摆动相周期平均得下一个步态的摆动相周期方法,即将前三个摆动相周期平均得下一个步态的摆动相周期作为当前步态周期的摆动相周期;因此,当前步态周期的摆动相周期相当于是一个已知值,由公式(2)获得。

3.根据权利要求2所述一种基于深度强化学习的外骨骼主助力参数优化的方法,其特征在于所述当前步态周期的摆动相周期Tb的具体求取方法如下:将MEMS姿态传感器放置在柔性外骨骼机器人的穿戴者的左右大腿后部中间位置,并实时采集该穿戴者正常行走时的髋关节屈曲角参数,以获取穿戴者髋关节的屈曲角参数曲线,将波峰时刻记为t波峰,将波谷时刻记为t波谷,并且记录对应波峰的髋关节屈曲角和波谷的髋关节屈曲角,进一步则可计算得到公式(3)所示的当前步态周期和公式(4)所示的步态周期的摆动相周期为:T(k)=t波谷(k)‑t波谷(k‑1)(3)Tb(k)=t波峰(k)‑t波谷(k)(4)其中,式(3)表示当前步态周期是由相邻的两个波谷点的值计算得到,其中T为当前步态周期;式(4)表示步态周期的摆动相周期是由相邻的波峰点和波谷点的值计算得到;进一步可得到与当前步态周期对应的最大髋关节屈曲角θmax(k)及最小髋关节屈曲角θmin(k)。

4.根据权利要求2所述一种基于深度强化学习的外骨骼主助力参数优化的方法,其特征在于所述穿戴者髋关节的屈曲角参数曲线的获取方法包括以下步骤:(1‑1)由MEMS姿态传感器获取柔性外骨骼机器人的穿戴者的髋关节屈曲角参数信号,并将其转换成数字量信号,发送给单片机,并由其发送给PC端;其中,单片机与PC端之间的数据传输是单片机通过串口通讯经蓝牙模块利用无线网络传输给PC端;

(1‑2)利用安装在PC端的MATLAB中的串口接口实现髋关节屈曲角参数信号的获取,并通过“plot”函数绘制髋关节屈曲角参数实时曲线。

5.根据权利要求1所述一种基于深度强化学习的外骨骼主助力参数优化的方法,其特征在于所述步骤(2)中的设置最大情节数E是指设置利用深度强化学习方法优化外骨骼主助力参数a的收敛次数,即:一次情节对应一次参数的收敛;所述设置每情节最大时间轮Tmax是指设置在每一情节下要进行的轮数,每一轮数对应一次时间间隔数,即:每一次将外骨骼主助力参数a收敛最大需要完成Tmax轮,每一轮需要外骨骼穿戴者走T的时间间隔;并且,一次轮数开始,记录一次时间,并将轮数开始时间定义为t时刻,即第一轮数开始时间开始对应t=1时刻,以此类推,第Tmax轮数开始时间开始对应t=Tmax时刻。

6.根据权利要求1所述一种基于深度强化学习的外骨骼主助力参数优化的方法,其特征在于所述步骤(3)中利用深度确定性策略梯度方法对策略网络及评价网络的设计具体由以下步骤构成:μ Q

(3‑1)对在线策略网络μ(s|α)及在线评价网络Q(s,a|α)进行初始化;

μ μ'

(3‑2)构建和在线策略网络μ(s|a)结构相同的目标策略网络μ(s|α ),构建和在线评Q Q'价网络Q(s,a|α)结构相同的目标评价网络Q(s,a|α),并且将在线策略网络和在线评价网μ' Q' Q络的参数复制到各自的目标网络参数,即α ←α和α ←α;其中,外骨骼主助力参数α作为基于深度强化学习方法所要优化的参数,s是指外骨骼的状态,a是指外骨骼的动作;初始化经验回放池R;

所述步骤(3‑2)中的外骨骼的状态s包括摆动相助力幅值A、当前步态周期T、当前步态周期的摆动相周期Tb、外骨骼穿戴者髋关节的屈曲角度θ、当前步态周期下髋关节的最大屈曲角θmax与当前步态周期下髋关节的最小屈曲角θmin;外骨骼的动作a为外骨骼助力大小,规定外骨骼助力方向始终为正方向,即竖直向上。

7.根据权利要求1所述一种基于深度强化学习的外骨骼主助力参数优化的方法,其特征在于所述步骤(5)中初始时刻外骨骼的状态s1的具体获得方法为:(5‑1)令外骨骼穿戴者在无助力情况下正常行走T的时间间隔,将MEMS姿态传感器放置在柔性外骨骼机器人的穿戴者的左右大腿后部中间位置,并实时采集该穿戴者正常行走时的髋关节屈曲角参数,将外骨骼穿戴者行走结束时刻的髋关节的屈曲角度作为初始时刻外骨骼穿戴者髋关节的屈曲角度θ1;

(5‑2)将实时采集该穿戴者无助力情况下正常行走时的髋关节屈曲角参数,通过步骤(1‑1)和步骤(1‑2)获取穿戴者髋关节的屈曲角参数曲线,将波峰时刻记为t波峰,将波谷时刻记为t波谷,并且记录对应波峰的髋关节屈曲角,波谷的髋关节屈曲角;

(5‑3)将该穿戴者无助力情况下正常行走T的时间间隔结束前最后出现的波谷时刻减去前一波谷时刻作为初始时刻步态周期T1;

(5‑4)将该穿戴者行走T的时间间隔结束前最后出现的波谷时刻减去此波谷时刻的前一波峰时刻作为初始时刻步态周期的摆动相周期I,记作Tb1,1;

(5‑5)将倒数第二次出现的波谷时刻减去此波谷时刻的前一波峰时刻作为初始时刻步态周期的摆动相周期II,记作Tb1,2;

(5‑6)将倒数第三次出现的波谷时刻减去此波谷时刻的前一波峰时刻作为初始时刻步态周期的摆动相周期III,记作Tb1,3;

(5‑7)将步骤(5‑4)、步骤(5‑5)及步骤(5‑6)得到的三个摆动相周期求取平均值,则可得下一个步态周期的摆动相周期,并将其作为初始时刻步态周期的摆动相周期,即:(5‑8)将最后出现的波谷时刻对应的髋关节屈曲角作为初始时刻步态周期下髋关节的最小屈曲角θmin,1,将最后出现的波峰时刻对应的髋关节屈曲角初始时刻步态周期下髋关节的最大屈曲角θmax,1;

(5‑9)初始时刻摆动相助力幅值A1等于人为设定的摆动相助力幅值A。

8.根据权利要求1所述一种基于深度强化学习的外骨骼主助力参数优化的方法,其特征在于所述步骤(8)中的柔性外骨骼反馈的标量化奖赏rt具体形式为:其中W为步行比,Wtv为设定好的健康老年人步行比;

所述步骤(8)中的步行比的值被定义为步长与步频的比值,具体形式如公式(8)所示:式中,Dt+1为下一时刻步长,单位为m,N为步频,其单位为steps/s,Tt+1为下一时刻步态周期,单位为s;

所述下一时刻步长可由下式获得:

Dt+1=l(θmax,t+1‑θmin,t+1)    (9)

其中,l为柔性外骨骼机器人的穿戴者的腿长;θmax,t+1为下一时刻步态周期下髋关节的最大屈曲角,θmin,t+1为下一时刻步态周期下髋关节的最小屈曲角。

9.根据权利要求1所述一种基于深度强化学习的外骨骼主助力参数优化的方法,其特征在于所述步骤(8)中的下一时刻的外骨骼状态st+1包括下一时刻摆动相助力幅值At+1、下一时刻外骨骼穿戴者髋关节的屈曲角度θtt+1、下一时刻步态周期Tt+1、下一时刻步态周期的摆动相周期Tbt+1、下一时刻步态周期下髋关节的最大屈曲角θmax,t+1、下一时刻步态周期下髋关节的最小屈曲角θmin,t+1;所述下一时刻的外骨骼状态st+1通过以下步骤获得:(8‑1)外骨骼执行步骤(7)选取的动作,外骨骼穿戴者行走T的时间间隔,通过MEMS姿态传感器实时采集该外骨骼穿戴者行走时的髋关节屈曲角参数,并将外骨骼穿戴者行走结束时刻的髋关节的屈曲角度作为下一时刻外骨骼穿戴者髋关节的屈曲角度θt+1;

(8‑2)实时采集该外骨骼穿戴者行走时的髋关节屈曲角参数,并通过步骤(1‑1)和步骤(1‑2)获取外骨骼穿戴者髋关节的屈曲角参数曲线,将波峰时刻记为t波峰,将波谷时刻记为t波谷,并且记录波峰对应的髋关节屈曲角及波谷对应的髋关节屈曲角;

(8‑3)用该外骨骼穿戴者行走T的时间间隔结束前最后出现的波谷时刻减去前一波谷时刻作为下一时刻步态周期Tt+1;同时用该外骨骼穿戴者行走T的时间间隔结束前最后出现的波谷时刻减去此波谷时刻的前一波峰时刻作为下一时刻步态周期的摆动相周期I,记作Tbt+1,1,并用倒数第二次出现的波谷时刻减去此波谷时刻的前一波峰时刻作为下一时刻步态周期的摆动相周期II,记作Tbt+1,2,用倒数第三次出现的波谷时刻减去此波谷时刻的前一波峰时刻作为下一时刻步态周期的摆动相周期III,记作Tbt+1,3,将这三个摆动相周期取平均值,如式(10)所示,即可得到下一个步态周期的摆动相周期,将其作为下一时刻步态周期的摆动相周期:(8‑4)将最后出现的波峰时刻对应的髋关节屈曲角作为下一时刻步态周期下髋关节的最大屈曲角θmax,t+1,将最后出现的波谷时刻对应的髋关节屈曲角作为下一时刻步态周期下髋关节的最小屈曲角θmin,t+1;

(8‑5)下一时刻摆动相助力幅值At+1等于人为设定的摆动相助力幅值A;

所述步骤(9)中的t时刻外骨骼的状态st与当前情节数第t‑1个时间轮下执行步骤(8)获得的下一时刻的外骨骼状态相同。

10.根据权利要求1所述一种基于深度强化学习的外骨骼主助力参数优化的方法,其特征在于所述步骤(10)中的参数训练具体是由以下步骤构成:(10‑1)计算在线评价网络的损失,损失定义为均方误差形式,如式(11)所示,用于更新在线评价网络参数:Q Q

其中,L(α)是在线评价网络的损失函数值,用于训练优化;Q(si,ai|α)是在线评价网络的评估值,即Q值,在线评价网络的输入为第i个状态转换过程外骨骼的状态和动作;yi是指Q值的目标,即:式中,ri是指第i个状态转移过程的标量化奖赏;si+1是指第i个状态转移过程的下一外μ' Q'骨骼状态;Y为折扣因子,Y∈[0,1];之后Q'(si+1,μ'(si+1|α )|α)是两个函数嵌套,第一个μ' Q'是Q'(si+1,μ'(si+1|α)|α )目标评价网络产生的Q值函数,其输入为第i个状态转移过程的下一外骨骼状态以及动作,第i个状态转移过程的下一外骨骼动作由目标策略网络产生,是μ'第二个函数μ'(si+1|α),其输入为第i个状态转移过程的下一外骨骼状态;

(10‑2)更新在线策略网络参数,如式(13)所示:

其中, 是指在线策略网络参数的梯度值; 是指在线评价网络的Q值

μ

对于动作a的梯度,该动作是由μ(si|α)在线策略网络产生; 是指在线策略网络参数的梯度;公式中 与 是相乘的关系;

(10‑3)更新目标策略网络参数及目标评价网络参数,如式(14)所示:

μ' μ Q'

其中,α 是指目标策略网络参数;α是指在线策略网络参数;α 是指目标评价网络参Q数;α是指在线评价网络参数;σ是指更新的比例参数,σ的取值表示目标策略网络参数和目标评价网络参数的更新是一个缓慢的过程,取值与外骨骼穿戴者的步行比值有关,取较小的值;

综上,完成一次步骤(10),即可更新一次策略网络和评价网络中的网络参数,促使策略网络和评价网络中各个网络的参数收敛,其中,策略网络中的网络参数包括在线策略网络μ μ'的在线策略网络参数α和目标策略网络的目标策略网络参数α ;评价网络中的网络参数包Q Q'括在线评价网络的在线评价网络参数α和目标评价网络的目标评价网络参数α ;最终实现策略网络和评价网络中各个网络的参数收敛,即促使外骨骼穿戴者的步行比向设定好的健康老年人步行比逼近,最终实现外骨骼穿戴者的步行比稳定在设定好的健康老年人步行比。