1.一种基于Q‑Learning强化学习算法的智能换挡规律控制方法,其特征在于,该方法包括以下步骤:
P1:设置强化学习的动作集合A={a1,a2…at}和状态集合S={s1,s2…st};对于动作集合A={a1,a2…at},其中t时刻的动作值a(t)表示t时刻应该选择的目标挡位,即a(t)={1,
2,3,4},对于状态集合S={s1,s2…st},其中t时刻的状态s(t)包括t时刻的车速、加速度和挡位,即s(t)={v(t),acc(t),gear(t)};
P2:将状态集合中的v,acc分别离散化为100份,gear为4个挡位,即状态集合中的状态变量共100×100×4=40000个,然后通过最优拉丁超立方设计实现状态空间缩减;
P3:将由状态集合S和动作集合A所构建的Q表初始化为一个全零矩阵;
P4:根据环境中t时刻的状态s(t),通过ε‑greedy策略来选择动作值a(t);
P5:根据选择的动作值a(t)进行换挡动作,计算出对应的挡位gear和电机效率Efficient,获取t时刻选择的动作值a(t)的回报值r(s(t),a(t));
P6:根据Q学习公式更新Q表,当前环境进行到下一状态,更新公式为:其中η表示学习速率,且0<η<1,γ表示折扣因子,且0≤γ<1;
P7:重复执行P4至P6,直到当前环境结束,即为完成一次Q表的更新。
2.根据权利要求1所述的一种基于Q‑Learning强化学习算法的智能换挡规律控制方法,其特征在于:在步骤P2中,基于控制器的存储空间限制,通过最优拉丁超立方设计实现状态空间缩减将状态变量的数目由40000个缩减为1000个,有利于该算法实际应用于整车控制器。
3.根据权利要求1所述的一种基于Q‑Learning强化学习算法的智能换挡规律控制方法,其特征在于:在步骤P4中,使用ε‑greedy策略来选取动作,根据训练次数的迭代进行探索因子的不断调整,使训练次数越接近末尾,探索概率越小,从已经学习好的Q表中选择的概率越大。
4.根据权利要求1所述的一种基于Q‑Learning强化学习算法的智能换挡规律控制方法,其特征在于:在步骤P5中:通过ε‑greedy策略来选取动作值a(t)之后,使用动作值a(t)作为挡位动作,得到下一秒的目标挡位gear以及下一时刻的电机效率Efficient值,并获得t时刻动作值a(t)下的回报值r(s(t),a(t)),回报函数定义为:其中,Efficient(t+1)为下一时刻换挡后的电机效率值,Efficient(t)当前挡位下的电机效率值,若换挡后电机效率值高,则给予奖励,否则给予惩罚。