1.一种基于随机森林的页岩气井分段压裂效果评价和产量预测方法,其特征在于:包括以下步骤:
1)确定影响压裂效果和产量的主要影响因素
a.第1级降维——皮尔逊相关系数
(1)首先假设原始样本集表示为一个m×(d+1)大小的矩阵A,表示为:其中,每一行对应一个压裂段,最后一个元素为对应压裂段的产量,每行前d个元素对应压裂段的d个影响因素,将d个影响因素用集合表示为D={a1,a2,…,ad};
(2)然后使用皮尔逊相关系数对原始样本集表中的d个影响因素进行筛选,去除相关度高于0.9的影响因素,得到e个影响因素,得到总样本集,用矩阵B表示为:其中,每一行对应一个压裂段,最后一个元素为对应压裂段的产量,每行前e个元素对应压裂段的e个影响因素,将e个影响因素用集合表示为D*={a1,a2,…,ae};
b.第2级降维——基于支持向量机的递归特征消除法(1)首先将总样本中的产量进行分类:依据不同的标准,将产量划分为高、低产2个类别,划分依如下:其中,Yn为段产量的类别;1代表高产,即大于1.3倍平均产量为高产,-1代表低产,即小于1.3倍平均产量为低产;y表示段产量的集合y=(y1,y2,…,ym);avg(y)表示段产量y的平均值;
(2)再利用基于支持向量机的递归特征消除法进行数据降维,从e个影响因素中去除排序准则最小的影响因素,迭代多次后,得到影响产量的f个主要影响因素,从而得到最终样本;其中,**
f个主要影响因素用集合表示为D ={a1,a2,…,af},最终样本集用矩阵C表示为;
c.建立训练集和测试集
最终样本集划分为包含m1个样本的训练集 和包含m2个样本的测试集 其中,m1+m2=m;
2)构建随机森林模型
根据训练集 中的数据,构建单棵决策回归树;将多棵决策回归树的结果进行平均,得到对应的随机森林算法结果;从而构建得到随机森林模型;
3)基于随机森林算法的压裂效果评价与产量预测根据步骤1)第c小步得到的训练集 和步骤2)中构建的随机森林模型,完成压裂效果评价与产量预测;
a.压裂效果评价
基于上述随机森林模型,构建上述f个影响因素与产量的偏依赖关系:①随机森林算法模型中的影响因素与产量的线性关系如下;
其中, 表示数据集第i个样本、第m2个影响因素所对应的值, 为对应的预测;
②偏依赖关系则是通过计算以下公式的平均值并在绘制在x的有效范围内得到:其中,med(y)为产量y的中值, 显示:将其他因素平均化之后,影响因素k对模型预测值 的影响, 表示数据集第i个样本、第m2个影响因素所对应的值;
③根据上述偏依赖关系分析影响因素对产量的增益情况;
当影响因素对应的偏依赖度大于0时,影响因素的值在这个区间有利于高产;且偏依赖度越大,越有利于高产,压裂效果也就越好;
当影响因素对应的偏依赖度小于等于0时,影响因素的值在这个区间不利于高产;且偏依赖度越小,越有不利于高产,压裂效果也就越差;
b.建立基于随机森林的产量预测
根据步骤1)第c小步得到的测试集 的数据和步骤2)中的随机森林模型,得到测试集各个压裂段对应的预测产量,并根据均方根误差判断预测的效果:其中:yi,ypre,i分别为样本i对应的实际产量和预测产量。
2.根据权利要求1所述基于随机森林的页岩气井分段压裂效果评价和产量预测方法,其特征在于:所述步骤1)第a小步中,皮尔逊相关系数为:其中,Corrij表示影响因素ai和影响因素aj之间的相关系数,ani表示影响因素ai对应样本的数值, 表示属性值ai对应样本的平均值, 表示属性值ai对应样本的标准差,m为总样本数。
3.根据权利要求1所述基于随机森林的页岩气井分段压裂效果评价和产量预测方法,其特征在于:所述步骤2)中,单棵决策回归树构建的步骤如下:步骤1:从训练集 中随机抽取数据集T;
步骤2:创建节点N
步骤3:如果节点N都同属于一类,则标记N的值为T#中产量的平均值,结束过程;
**
步骤4:从影响因素集D 的影响因素作为候选分裂属性步骤5:对于 中每个影响因素的每种可能的划分计算平方误差,确定二元划分;
步骤6:在步骤5确定二元划分的基础上,将T·划分为两部分 和步骤7:将 的值标记为 中产量的均值;如果集合 中的样本少于10,则结束过程。