欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020108399763
申请人: 重庆交通大学
专利类型:发明专利
专利状态:已下证
专利领域: 一般车辆
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于状态空间域电池能量均衡的Q学习再生制动控制策略,其特征在于:所述策略包括以下步骤:S1:基于电池能量时域-空间域转换,确定再生制动参考平均回收能量;

S2:构建修正函数,修正所述参考平均回收能量;

S3:根据修正后的参考平均回收能量和Q学习算法,确定电机再生转矩最优分配策略,即电机再生转矩分配MAP图;

S4:采集在线工况数据,确定所述在线工况数据确定平均车速V、电池荷电状态SOC和需求功率Preq,根据所述需求功率Preq和电池荷电状态SOC在步骤S3的MAP图中确定与所述在线工况数据的对应的电机再生转矩分配值,即获得在线工况电机再生转矩序列。

2.根据权利要求1所述基于状态空间域电池能量均衡的Q学习再生制动控制策略,其特征在于:所述再生制动参考平均回收能量采用如法方法确定:S11:选择离线工况的平均车速为状态,将平均车速离散得到状态集S:其中,S表示状态集合, 表示离散后的第一个状态, 表示离散后的第k个状态, 表示离散后的第n个状态;

S12:将电池时域能量转换到空间域能量,从空间维度计算第k个状态的电池能量变化值Δebk:Δebk=∫tractionΔebk-outdτ+∫brakingΔebk-indτ   (2)其中,Δebk表示第k个状态电池能量变化值,Δebk-out表示第k个状态驱动过程电池变化的能量,Δebk-in表示第k个状态制动过程电池变化的能量,τ表示第k个状态在时域上发生电池能量变化的时间;

S13:由第k个状态的电池能量变化值Δebk,计算第k个状态的制动过程参考平均回收能量其中, 表示第k个状态再生制动参考平均回收能量的等效油耗,λ表示等效因子,表示第k个状态再生制动参考平均回收能量;

所述等效因子λ采用如下方法确定:

其中, 表示电机的平均效率, 表示发动机的平均效率, 表示电池平均放电效率, 表示电池平均充电效率;

所述第k个状态再生制动参考平均回收能量 采用如下方法确定:其中, 表示第k个状态再生制动参考平均回收能量,Δebk-tra表示第k个状态驱动过程电池能量变化值,Tbk,bra表示第k个状态发生制动的时间;

所述第k个状态驱动部分电池能量变化值Δebk-tra采用如下方法确定;

Δebk,tra=∫tractionΔebk-outdt    (6)其中,Δebk-tra表示第k个状态驱动过程电池能量变化值,Δebk-out表示第k个状态电池驱动过程变化的能量,t表示时间。

3.根据权利要求2所述基于状态空间域电池能量均衡的Q学习再生制动控制策略,其特征在于:所述修正函数f(ΔPreq,ΔSOC)采用如下方法确定;

其中,f(ΔPreq,ΔSOC)表示修正函数,Preq,i表示当前状态第i个需求功率,SOCj表示当前状态第j个电池荷电状态, 表示当前状态下的平均需求功率, 分别为当前状态下的平均电池荷电状态SOC,SOCref表示参考电池荷电状态的参考值;

所述参考平均回收能量采用如下方法修正:

其中, 表示第k个状态下Preq,i与SOCj对应的修正后的参考回收能量,Preq,i表示第k个状态的第i个需求功率,SOCj表示第k个状态的第j个电池荷电状态,f(ΔPreq,ΔSOC)表示修正函数, 表示第k个状态再生制动参考平均回收能量的等效油耗。

4.根据权利要求3所述基于状态空间域电池能量均衡的Q学习再生制动控制策略,其特征在于:所述电机再生转矩最优分配MAP图采用如下方法确定:S31:初始化Q学习算法的探索率ε、学习率α、折扣因子γ和设置迭代次数N和状态变量k,其中,N=1,k=1;

S32:令s=[SOC,v,Preq],a=[Tm],即选择车速v,电池荷电状态SOC和需求功率Preq为状态变量,电机转矩Tm为优化变量;

S33:构建回报函数r(s,a),所述回报函数r(s,a)如下:其中,r(s,a)表示当前状态s与动作a的回报,aele表示当前状态s与对应动作a的电池能量变化值,λ为等效因子, 表示当前车速下的需求功率Preq和电池荷电状态SOC对应的参考回收量,β表示权重因子;

S34:确定最小Q(s,a)值对应的动作:

其中,π(a|s)表示最小Q(s,a)值对应的动作策略,ε表示探索率,α表示学习率,A(s)表示当前状态s下可行动作的总个数;

S35:更新当前动作Q(s,a)值:

Q(s,a)←Q(s,a)+α[r+γminQ(s',a')-Q(s,a)]  (11)其中,α表示学习率,r表示当前状态s与动作a对应的回报,γ表示折扣因子;

S36:判断k是否小于kfinal,其中,k表示状态变量,kfinal表示最终状态的变量值,即判断当前状态是否为最终状态,若是,则进入下一步,若否,k=k+1,并进入步骤S32;

S37:判断相邻迭代次数的Q(s,a)值的绝对值之差是否小于阈值,若是,表明策略收敛,结束,若否,N=N+1,并进入步骤S32;

收敛后的Q(s,a)值对应的策略作为最优策略。