知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于Q-Learning强化学习算法的智能换挡规律控制方法

￥38400

专利号： 2021107607566

申请人：聊城大学

专利类型：发明专利

专利状态：已下证

专利领域：工程元件或部件；为产生和保持机器或设备的有效运行的一般措施；一般绝热

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于Q‑Learning强化学习算法的智能换挡规律控制方法，其特征在于，该方法包括以下步骤：

P1：设置强化学习的动作集合A＝{a1,a2…at}和状态集合S＝{s1,s2…st}；对于动作集合A＝{a1,a2…at}，其中t时刻的动作值a(t)表示t时刻应该选择的目标挡位，即a(t)＝{1,

2,3,4}，对于状态集合S＝{s1,s2…st}，其中t时刻的状态s(t)包括t时刻的车速、加速度和挡位，即s(t)＝{v(t),acc(t),gear(t)}；

P2：将状态集合中的v，acc分别离散化为100份，gear为4个挡位，即状态集合中的状态变量共100×100×4＝40000个，然后通过最优拉丁超立方设计实现状态空间缩减；

P3：将由状态集合S和动作集合A所构建的Q表初始化为一个全零矩阵；

P4：根据环境中t时刻的状态s(t)，通过ε‑greedy策略来选择动作值a(t)；

P5：根据选择的动作值a(t)进行换挡动作，计算出对应的挡位gear和电机效率Efficient，获取t时刻选择的动作值a(t)的回报值r(s(t),a(t))；

P6：根据Q学习公式更新Q表，当前环境进行到下一状态，更新公式为：其中η表示学习速率，且0<η＜1，γ表示折扣因子，且0≤γ＜1；

P7：重复执行P4至P6，直到当前环境结束，即为完成一次Q表的更新。

2.根据权利要求1所述的一种基于Q‑Learning强化学习算法的智能换挡规律控制方法，其特征在于：在步骤P2中，基于控制器的存储空间限制，通过最优拉丁超立方设计实现状态空间缩减将状态变量的数目由40000个缩减为1000个，有利于该算法实际应用于整车控制器。

3.根据权利要求1所述的一种基于Q‑Learning强化学习算法的智能换挡规律控制方法，其特征在于：在步骤P4中，使用ε‑greedy策略来选取动作，根据训练次数的迭代进行探索因子的不断调整，使训练次数越接近末尾，探索概率越小，从已经学习好的Q表中选择的概率越大。

4.根据权利要求1所述的一种基于Q‑Learning强化学习算法的智能换挡规律控制方法，其特征在于：在步骤P5中：通过ε‑greedy策略来选取动作值a(t)之后，使用动作值a(t)作为挡位动作，得到下一秒的目标挡位gear以及下一时刻的电机效率Efficient值，并获得t时刻动作值a(t)下的回报值r(s(t),a(t))，回报函数定义为：其中，Efficient(t+1)为下一时刻换挡后的电机效率值，Efficient(t)当前挡位下的电机效率值，若换挡后电机效率值高，则给予奖励，否则给予惩罚。