1.基于室内污染浓度估计模型的通风控制方法,具体步骤如下,其特征在于:步骤1,搭建室内空气检测系统:室内空气检测系统由PM2.5检测传感器、CO2检测传感器、烟雾检测传感器、风速检测传感器、雨滴传感器、信号调理电路模块、供电电路模块和NI采集卡组成;
步骤2,将步骤1所采集的PM2.5、CO2、烟雾信号数据进行归一化处理,把PM2.5、CO2、烟雾信号数据归一化至0到1范围内,以减小数据间的量纲影响;
步骤3,建立室内污染浓度估计模型:将步骤2归一化后的PM2.5、CO2、烟雾数据和控制器对执行机构的输出值作为输入,将下一时刻的室内PM2.5、CO2、烟雾数据作为输出建立室内污染浓度估计模型;
步骤4,建立室内通风控制算法模型:将风速、通风动作、室内污染浓度估计模型计算的下一时刻室内PM2.5、CO2、烟雾数据和当前室内PM2.5、CO2、烟雾数据作为输入训练深度确定性策略梯度网络,利用深度确定性策略梯度网络输出通风值;
步骤5,把设计完成的室内污染浓度估计模型和室内通风控制算法模型嵌入空气检测数据处理模块中,完成对室内通风的控制;
步骤6,室内空气检测数据处理模块通过实时检测室外的风速和雨滴值,当超过限定阈值时,控制器关闭通风装置。
2.根据权利要求1所述的基于室内污染浓度估计模型的通风控制方法,其特征在于:步骤1中搭建室内空气检测系统的过程可以表示如下:通过供电电路分别对PM2.5检测传感器、CO2检测传感器、烟雾检测传感器、风速检测传感器、雨滴传感器进行供电,同时将传感器安装适当位置,把所检测的PM2.5、CO2、烟雾、风速、雨滴信号经调理电路转换后统一接入NI采集卡,NI采集卡通过PCIE接口将信号传输至上位机的室内空气检测数据处理模块中。
3.根据权利要求1所述的基于室内污染浓度估计模型的通风控制方法,其特征在于:进一步,步骤3中建立室内污染浓度估计模型的过程可以表示如下:步骤3.1:室内污染浓度估计模型由输入门、遗忘门、细胞状态和输出门构成;首先,输入门对输入进行有选择性的记忆,遗忘门对细胞状态传进来的输入进行选择性的忘记;其次,将输入门和遗忘门的输出叠加至下一个细胞状态;最后,输出门对细胞状态的输出进行放缩输出下一时刻的预测值;
步骤3.2:构建室内污染浓度估计模型的输入门,过滤PM2.5、CO2、烟雾数据和控制器对执行机构输出值的无效信息,并向细胞状态输入有效信息,输入门表示如下:it=g(Wxixt+Whiht‑1+Wcict‑1+bi)+Wnint (1)式中,xt是归一化后的PM2.5、CO2、烟雾数据和控制器对执行机构输出值的数据,g()为激活函数,Wxi是输入门与xt之间的权重系数,ht‑1是t‑1时的隐藏状态,Whi是输入门与隐藏状态之间的权重系数,ct‑1是t‑1时的细胞状态,Wci是输入门样本与细胞状态间的权重系数,bi是输入门的偏置项,it为输入门样本,nt是t时的噪声干扰,Wni是输入门与噪声干扰之间的权重系数,通过添加噪声干扰来提高模型的鲁棒性;
步骤3.3:构建室内污染浓度估计模型的遗忘门,来删除细胞状态中部分无效信息,遗忘门表示如下:
ft=g(Wxfxt+Whfht‑1+Wcfct‑1+bf) (2)式中,ft为遗忘门输出,Wxf是遗忘门和xt间的权重系数,Whf是遗忘门和隐藏状态间的权重系数,Wcf为遗忘门样本与细胞状态ct‑1间的权重系数,bf是遗忘门的偏置项;
步骤3.3:构建模型细胞状态:ct=ftct‑1+ittanh(Wxcxt+Whcht‑1+bc) (3)式中,Wxc是细胞状态与xt之间的权重系数,Whc是细胞状态与隐藏状态ht‑1间的权重系数,bc为细胞状态的偏置项;
步骤3.4:构建模型输出门,输出下一时刻的室内PM2.5、CO2、烟雾数据:st=g(Wxsxt+Whsht‑1+Wcsct+bs) (4)式中,st是输出门输出的下一时刻室内PM2.5、CO2、烟雾归一化数据,Wxs是输出门与xt间的权重系数,Whs是输出门样本与ht‑1之间的权重系数,Wcs是输出门样本与ct之间的权重系数,bs为输出门的偏置项
步骤3.5:通过输出门对t时刻的隐藏状态ht进行更新:ht=sttanh(ct) (5)步骤3.6,重复步骤3.2~步骤3.5,利用SGD算法对模型中的权重和偏置参数进行更新,直至损失函数达到收敛阈值,收敛阈值设置为1e‑4。
4.根据权利要求1所述的基于室内污染浓度估计模型的通风控制方法,其特征在于:步骤4中建立室内通风控制算法模型的过程可以表示如下:步骤4.1,策略网络和价值网络中分别都包含了一个现实网络和一个目标网络,分别初Q μ
始化策略网络和价值网络,随机初始化策略网络和价值网络参数:θ、θ,并令:Q′ Q
θ =θ (6)
μ′ μ
θ =θ (7)
Q Q′ μ
式中,θ表示现实价值网络参数,θ 表示目标价值网络参数,θ表示现实策略网络参数,μ′
θ 表示目标策略网络参数
步骤4.2,在当前状态下选取作动器动作at:μ
at=μ(st|θ)+Nt (8)式中,Nt是随机噪声,函数μ()为最优行为策略;
步骤4.3,通过执行动作at,得到奖励rt+1和室内污染浓度估计模型估计的状态st+1,保存当前状态st、动作at、奖励rt+1和状态st+1,并放入经验池中;,步骤4.4,当经验池数据达到训练条件时,随机从经验池中选取N个样本{(st,at,rt+1,st+1)};
Q μ
步骤4.5,利用经验池中的样本对策略网络和价值网络参数θ、θ进行更新,通过价值网络计算的目标动作价值y:
Q′
y=rt+1+γQ(st+1,at+1/θ) (9)γ为折扣因子,at+1是t+1时刻的动作;
步骤4.6,间隔一段时间更新一次目标网络:Q′ Q Q′
θ =τθ+(1‑τ)θ (10)μ′ μ μ′
θ =τθ+(1‑τ)θ (11)式中,τ为学习率;
步骤4.7,返回步骤4.2进行循环迭代,知道最大回合数;
步骤4.8,根据训练完成的室内通风控制算法模型输出通风控制量at。