欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021107607566
申请人: 聊城大学
专利类型:发明专利
专利状态:已下证
专利领域: 工程元件或部件;为产生和保持机器或设备的有效运行的一般措施;一般绝热
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于Q‑Learning强化学习算法的智能换挡规律控制方法,其特征在于,该方法包括以下步骤:

P1:设置强化学习的动作集合A={a1,a2…at}和状态集合S={s1,s2…st};对于动作集合A={a1,a2…at},其中t时刻的动作值a(t)表示t时刻应该选择的目标挡位,即a(t)={1,

2,3,4},对于状态集合S={s1,s2…st},其中t时刻的状态s(t)包括t时刻的车速、加速度和挡位,即s(t)={v(t),acc(t),gear(t)};

P2:将状态集合中的v,acc分别离散化为100份,gear为4个挡位,即状态集合中的状态变量共100×100×4=40000个,然后通过最优拉丁超立方设计实现状态空间缩减;

P3:将由状态集合S和动作集合A所构建的Q表初始化为一个全零矩阵;

P4:根据环境中t时刻的状态s(t),通过ε‑greedy策略来选择动作值a(t);

P5:根据选择的动作值a(t)进行换挡动作,计算出对应的挡位gear和电机效率Efficient,获取t时刻选择的动作值a(t)的回报值r(s(t),a(t));

P6:根据Q学习公式更新Q表,当前环境进行到下一状态,更新公式为:其中η表示学习速率,且0<η<1,γ表示折扣因子,且0≤γ<1;

P7:重复执行P4至P6,直到当前环境结束,即为完成一次Q表的更新。

2.根据权利要求1所述的一种基于Q‑Learning强化学习算法的智能换挡规律控制方法,其特征在于:在步骤P2中,基于控制器的存储空间限制,通过最优拉丁超立方设计实现状态空间缩减将状态变量的数目由40000个缩减为1000个,有利于该算法实际应用于整车控制器。

3.根据权利要求1所述的一种基于Q‑Learning强化学习算法的智能换挡规律控制方法,其特征在于:在步骤P4中,使用ε‑greedy策略来选取动作,根据训练次数的迭代进行探索因子的不断调整,使训练次数越接近末尾,探索概率越小,从已经学习好的Q表中选择的概率越大。

4.根据权利要求1所述的一种基于Q‑Learning强化学习算法的智能换挡规律控制方法,其特征在于:在步骤P5中:通过ε‑greedy策略来选取动作值a(t)之后,使用动作值a(t)作为挡位动作,得到下一秒的目标挡位gear以及下一时刻的电机效率Efficient值,并获得t时刻动作值a(t)下的回报值r(s(t),a(t)),回报函数定义为:其中,Efficient(t+1)为下一时刻换挡后的电机效率值,Efficient(t)当前挡位下的电机效率值,若换挡后电机效率值高,则给予奖励,否则给予惩罚。