1.一种基于状态空间域电池能量均衡的Q学习再生制动控制策略,其特征在于:所述策略包括以下步骤:S1:基于电池能量时域-空间域转换,确定再生制动参考平均回收能量;
S2:构建修正函数,修正所述参考平均回收能量;
S3:根据修正后的参考平均回收能量和Q学习算法,确定电机再生转矩最优分配策略,即电机再生转矩分配MAP图;
S4:采集在线工况数据,确定所述在线工况数据确定平均车速V、电池荷电状态SOC和需求功率Preq,根据所述需求功率Preq和电池荷电状态SOC在步骤S3的MAP图中确定与所述在线工况数据的对应的电机再生转矩分配值,即获得在线工况电机再生转矩序列。
2.根据权利要求1所述基于状态空间域电池能量均衡的Q学习再生制动控制策略,其特征在于:所述再生制动参考平均回收能量采用如法方法确定:S11:选择离线工况的平均车速为状态,将平均车速离散得到状态集S:其中,S表示状态集合, 表示离散后的第一个状态, 表示离散后的第k个状态, 表示离散后的第n个状态;
S12:将电池时域能量转换到空间域能量,从空间维度计算第k个状态的电池能量变化值Δebk:Δebk=∫tractionΔebk-outdτ+∫brakingΔebk-indτ (2)其中,Δebk表示第k个状态电池能量变化值,Δebk-out表示第k个状态驱动过程电池变化的能量,Δebk-in表示第k个状态制动过程电池变化的能量,τ表示第k个状态在时域上发生电池能量变化的时间;
S13:由第k个状态的电池能量变化值Δebk,计算第k个状态的制动过程参考平均回收能量其中, 表示第k个状态再生制动参考平均回收能量的等效油耗,λ表示等效因子,表示第k个状态再生制动参考平均回收能量;
所述等效因子λ采用如下方法确定:
其中, 表示电机的平均效率, 表示发动机的平均效率, 表示电池平均放电效率, 表示电池平均充电效率;
所述第k个状态再生制动参考平均回收能量 采用如下方法确定:其中, 表示第k个状态再生制动参考平均回收能量,Δebk-tra表示第k个状态驱动过程电池能量变化值,Tbk,bra表示第k个状态发生制动的时间;
所述第k个状态驱动部分电池能量变化值Δebk-tra采用如下方法确定;
Δebk,tra=∫tractionΔebk-outdt (6)其中,Δebk-tra表示第k个状态驱动过程电池能量变化值,Δebk-out表示第k个状态电池驱动过程变化的能量,t表示时间。
3.根据权利要求2所述基于状态空间域电池能量均衡的Q学习再生制动控制策略,其特征在于:所述修正函数f(ΔPreq,ΔSOC)采用如下方法确定;
其中,f(ΔPreq,ΔSOC)表示修正函数,Preq,i表示当前状态第i个需求功率,SOCj表示当前状态第j个电池荷电状态, 表示当前状态下的平均需求功率, 分别为当前状态下的平均电池荷电状态SOC,SOCref表示参考电池荷电状态的参考值;
所述参考平均回收能量采用如下方法修正:
其中, 表示第k个状态下Preq,i与SOCj对应的修正后的参考回收能量,Preq,i表示第k个状态的第i个需求功率,SOCj表示第k个状态的第j个电池荷电状态,f(ΔPreq,ΔSOC)表示修正函数, 表示第k个状态再生制动参考平均回收能量的等效油耗。
4.根据权利要求3所述基于状态空间域电池能量均衡的Q学习再生制动控制策略,其特征在于:所述电机再生转矩最优分配MAP图采用如下方法确定:S31:初始化Q学习算法的探索率ε、学习率α、折扣因子γ和设置迭代次数N和状态变量k,其中,N=1,k=1;
S32:令s=[SOC,v,Preq],a=[Tm],即选择车速v,电池荷电状态SOC和需求功率Preq为状态变量,电机转矩Tm为优化变量;
S33:构建回报函数r(s,a),所述回报函数r(s,a)如下:其中,r(s,a)表示当前状态s与动作a的回报,aele表示当前状态s与对应动作a的电池能量变化值,λ为等效因子, 表示当前车速下的需求功率Preq和电池荷电状态SOC对应的参考回收量,β表示权重因子;
S34:确定最小Q(s,a)值对应的动作:
其中,π(a|s)表示最小Q(s,a)值对应的动作策略,ε表示探索率,α表示学习率,A(s)表示当前状态s下可行动作的总个数;
S35:更新当前动作Q(s,a)值:
Q(s,a)←Q(s,a)+α[r+γminQ(s',a')-Q(s,a)] (11)其中,α表示学习率,r表示当前状态s与动作a对应的回报,γ表示折扣因子;
S36:判断k是否小于kfinal,其中,k表示状态变量,kfinal表示最终状态的变量值,即判断当前状态是否为最终状态,若是,则进入下一步,若否,k=k+1,并进入步骤S32;
S37:判断相邻迭代次数的Q(s,a)值的绝对值之差是否小于阈值,若是,表明策略收敛,结束,若否,N=N+1,并进入步骤S32;
收敛后的Q(s,a)值对应的策略作为最优策略。