知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

基于随机森林的页岩气井分段压裂效果评价和产量预测方法

面议

专利号： 2019112658058

申请人：长江大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于随机森林的页岩气井分段压裂效果评价和产量预测方法，其特征在于：包括以下步骤：

1)确定影响压裂效果和产量的主要影响因素

a.第1级降维——皮尔逊相关系数

(1)首先假设原始样本集表示为一个m×(d+1)大小的矩阵A，表示为：其中，每一行对应一个压裂段，最后一个元素为对应压裂段的产量，每行前d个元素对应压裂段的d个影响因素，将d个影响因素用集合表示为D＝{a1，a2，…，ad}；

(2)然后使用皮尔逊相关系数对原始样本集表中的d个影响因素进行筛选，去除相关度高于0.9的影响因素，得到e个影响因素，得到总样本集，用矩阵B表示为：其中，每一行对应一个压裂段，最后一个元素为对应压裂段的产量，每行前e个元素对应压裂段的e个影响因素，将e个影响因素用集合表示为D*＝{a1，a2，…，ae}；

b.第2级降维——基于支持向量机的递归特征消除法(1)首先将总样本中的产量进行分类：依据不同的标准，将产量划分为高、低产2个类别，划分依如下：其中，Yn为段产量的类别；1代表高产，即大于1.3倍平均产量为高产，-1代表低产，即小于1.3倍平均产量为低产；y表示段产量的集合y＝(y1,y2,…,ym)；avg(y)表示段产量y的平均值；

(2)再利用基于支持向量机的递归特征消除法进行数据降维，从e个影响因素中去除排序准则最小的影响因素，迭代多次后，得到影响产量的f个主要影响因素，从而得到最终样本；其中，**

f个主要影响因素用集合表示为D ＝{a1，a2，…，af}，最终样本集用矩阵C表示为；

c.建立训练集和测试集

最终样本集划分为包含m1个样本的训练集和包含m2个样本的测试集其中，m1+m2＝m；

2)构建随机森林模型

根据训练集中的数据，构建单棵决策回归树；将多棵决策回归树的结果进行平均，得到对应的随机森林算法结果；从而构建得到随机森林模型；

3)基于随机森林算法的压裂效果评价与产量预测根据步骤1)第c小步得到的训练集和步骤2)中构建的随机森林模型，完成压裂效果评价与产量预测；

a.压裂效果评价

基于上述随机森林模型，构建上述f个影响因素与产量的偏依赖关系：①随机森林算法模型中的影响因素与产量的线性关系如下；

其中，表示数据集第i个样本、第m2个影响因素所对应的值，为对应的预测；

②偏依赖关系则是通过计算以下公式的平均值并在绘制在x的有效范围内得到：其中，med(y)为产量y的中值，显示：将其他因素平均化之后，影响因素k对模型预测值的影响，表示数据集第i个样本、第m2个影响因素所对应的值；

③根据上述偏依赖关系分析影响因素对产量的增益情况；

当影响因素对应的偏依赖度大于0时，影响因素的值在这个区间有利于高产；且偏依赖度越大，越有利于高产，压裂效果也就越好；

当影响因素对应的偏依赖度小于等于0时，影响因素的值在这个区间不利于高产；且偏依赖度越小，越有不利于高产，压裂效果也就越差；

b.建立基于随机森林的产量预测

根据步骤1)第c小步得到的测试集的数据和步骤2)中的随机森林模型，得到测试集各个压裂段对应的预测产量，并根据均方根误差判断预测的效果：其中：yi,ypre,i分别为样本i对应的实际产量和预测产量。

2.根据权利要求1所述基于随机森林的页岩气井分段压裂效果评价和产量预测方法，其特征在于：所述步骤1)第a小步中，皮尔逊相关系数为：其中，Corrij表示影响因素ai和影响因素aj之间的相关系数，ani表示影响因素ai对应样本的数值, 表示属性值ai对应样本的平均值，表示属性值ai对应样本的标准差，m为总样本数。

3.根据权利要求1所述基于随机森林的页岩气井分段压裂效果评价和产量预测方法，其特征在于：所述步骤2)中，单棵决策回归树构建的步骤如下：步骤1：从训练集中随机抽取数据集T；

步骤2：创建节点N

步骤3：如果节点N都同属于一类，则标记N的值为T#中产量的平均值，结束过程；

步骤4：从影响因素集D 的影响因素作为候选分裂属性步骤5：对于中每个影响因素的每种可能的划分计算平方误差，确定二元划分；

步骤6：在步骤5确定二元划分的基础上，将T·划分为两部分和步骤7：将的值标记为中产量的均值；如果集合中的样本少于10，则结束过程。