1.一种基于双优选半监督回归算法的模型对脱丁烷塔底丁烷浓度进行预测的方法,其特征在于,所述方法包括:
步骤1:利用无标签样本筛选算法,根据优选准则1与优选准则2筛选出无标签样本,得到无标签样本集M1,无标签样本来自脱丁烷塔真实过程实际采样;
优选准则1描述如下:给定一个阈值θ1,利用马氏距离来度量无标签样本x′i与有标签样本密集区中心C的相似度di,若x′i与C的距离小于θ1,则x′i满足优选条件,其中,di由公式(1)~(3)获得;有标签样本来自脱丁烷塔真实过程实际采样;
‑1
di=sqrt[(x′i‑C)′M (x′i‑C)] (1)式中M为无标签样本协方差矩阵,n为无标签样本数目, 为无标签样本均值;
优选准则2描述如下:给定一个阈值θ2,利用马氏距离来度量样本间的相似度d(xi,xj),统计样本xi与周围样本xj的马氏距离小于θ2的样本数量m,若m不小于2,则xi满足优选条件,其中,d(xi,xj)由公式(4)~(6)获得‑1
d(xi,xj)=sqrt[(xi‑xj)′S (xi‑xj)] (4)式中S为有标签样本协方差矩阵,n为有标签样本数目,为有标签样本均值;
马氏距离表示数据的协方差距离,能够有效的计算两个未知样本集的相似度;
无标签样本筛选算法如下:
Step1:初始化1,i赋初值1,给定阈值θ3;
Step2:依次判断xi是否满足阈值θ3限定下的优选准则2,即用θ3替换θ2作为相似度约束,选出其中满足条件的有标签样本组成矩阵A;
Step3:利用所得的A矩阵求出样本密集区中心C: 其中l为A中包含的密集区样本个数,i表示样本的维度;
Step4:由公式(1)~(3)计算每个无标签样本x′i与C的距离di,选出其中满足优选准则1的无标签样本存入矩阵M1中;
步骤2:利用辅学习器建立算法,根据优选准则2选出有标签样本,建立一个更有针对性的辅学习器f1;
辅学习器是利用有标签样本建立的一个模型,以预测无标签样本的标签;
辅学习器建立算法如下:
Step1:初始化2,i赋初值1;
Step2:依次判断xi是否满足优选准则2,选出其中满足条件的有标签样本组成矩阵B;
Step3:根据B利用高斯过程回归GPR建立辅学习器f1;
GPR是一种基于统计学习理论的非参数概率模型,利用GPR建模如下:D×N N D
给定训练样本集X∈R 和y∈R ,其中X={xi∈R}i=1…N,y={yi∈R}i=1…N分别代表D维的输入数据和输出数据,输入数据和输出数据之间的关系由公式(7)产生:y=f(x)+ε (7)*
其中f是未知的函数形式,ε是均值为0、方差为 的高斯噪声,对于一个新的输入x ,相*
应的概率预测输出y也满足高斯分布,其均值和方差如式(8)和(9)所示:* * T * ‑1
y(x)=c(x)C y (8)* * * T
式中c(x )=[c(x ,x1),…,c(x ,xn)] 是训练数据和测试数据之间的协方差矩阵,* *
是训练数据之间的协方差矩阵,I是N×N维的单位矩阵,c(x ,x)是测试数据的自协方差;
GPR选择高斯协方差函数:
d
式中v控制协方差的量度,ωd代表每个成分x的相对重要性;
对式(10)中的未知参数v,ω1,…,ωD和高斯噪声方差 的估计,采用极大似然估计得到参数
求得参数θ的值的过程如下:
为了跳出局部最优,将参数θ设置为不同范围内的随机值,在每个范围内选择一个随机值,范围选用不同量级,分别为0.001、0.01、0.1、1和10;
采用共轭梯度法得到优化的参数;
*
获得最优参数θ后,对于测试样本x,通过式(8)和(9)估计GPR模型的输出值;
步骤3:利用辅学习器f1对无标签样本集M1预测其标签,将所得的伪标签样本集S1添加到初始有标签样本集S0中,利用GPR方法建立主学习器,其中,S0为初始的有标签样本集;
伪标签样本是指利用辅学习器人为预测无标签样本获得的样本,主学习器是利用有标签样本结合伪签样本建立的模型,以跟踪测试样本;即利用所建立的模型对脱丁烷塔底丁烷浓度进行预测。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:通过选出属于样本密集区的样本选出样本密集区中心;
所述样本密集区指样本集中分布的区域,所述样本密集区中心是所述样本密集区的中心。
3.根据权利要求1所述的方法,其特征在于,所述方法为应用于工业过程中通过无标签样本预测无法直接测量的变量的方法。
4.根据权利要求3所述的方法,其特征在于,所述工业过程包括环保、冶金及化工过程。