欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023105709545
申请人: 广东工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2024-11-14
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于可充分考虑类别样本数量不均衡对预测结果的影响,并运用多个学习器进行融合预测以提升预测效果,该方法包括以下步骤:第一步,收集已知BBB标签的化合物,获取这些化合物的SMILES分子式,并与其对应的BBB标签组合成化合物样本,由此形成初始的数据集;

第二步,对数据集进行以下预处理操作,包括特征生成、数据归一化、特征筛选、样本数量均衡化数据,得到经过预处理的BBB数据集;

第三步,构建基学习器选择模块,首先构建一个由多个学习器个体组成的学习器集合,然后将经过预处理的BBB数据集输入至学习器集合中的每一种学习器进行处理,得到上述学习器个体各自的训练性能P、训练耗时T,对于任意两个学习器个体mi和mj,计算它们之间的差异值D(mi,mj);根据mi和mj对于堆叠学习算法的贡献度S(mi,mj),选择贡献度最大的若干对学习器个体组合,将这些组合中所有的学习器个体作为堆叠学习算法的基学习器,其中学习器个体mi,mj对于堆叠学习算法的贡献度的计算公式为:第四步,构建融合学习器遴选模块,首先将经过预处理的BBB数据集分别输入至第三步中已选出的k个基学习器中进行训练,得到k种不同的预测结果;然后从学习器集合中选择任意一个学习器个体作为融合学习器,将上述k种不同的预测结果构造成一个k列矩阵,称为堆叠矩阵,将该堆叠矩阵输入到融合学习器中进行预测,得到该学习器个体作为融合学习器时对应的预测结果;最后当学习器集合中的所有学习器个体均被使用后,依据AUC指标,将所有学习器个体作为融合学习器的预测结果从好到差进行排列,遴选出最好结果者作为最佳融合学习器;

第五步,根据基学习器选择模块选出的基学习器和融合学习器遴选模块遴选出的融合学习器,构造化合物BBB渗透性预测模型,并应用网格搜索方法进行参数优化;

第六步,运用该预测模型进行化合物的BBB渗透性预测。

2.根据权利要求1所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第二步中,包括有:(1)获取数据集中每一个化合物样本所对应的SMILES分子式,并使用分子描述符构建工具,基于SMILES分子式构建出分子描述符,最终得到整个数据集的特征向量;

(2)对特征向量进行归一化处理:所选的归一化方法为标准差归一化,使用到的归一化公式如下式所示:其中xi为化合物输入特征,X.mean()为整个数据集的均值,X.std()为整个数据集的标准差, 为归一化后的值;

(3)对特征向量进行筛选:去除对于化合物的BBB渗透性预测影响较低的特征;

(4)对数据集进行样本数量均衡化操作:将BBB‑的化合物样本数量与BBB+的化合物样本数量基本一致,有助于避免不同类别的数据量差异较大而导致训练出来的模型对不同类别的预测能力差距较大,从而提升模型的泛化能力。

3.根据权利要求2所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的特征向量筛选步骤包括:(1)剔除方差小于0.08的特征;

(2)基于额外树算法根据重要性权重选择特征;

(3)使用基于的随机森林算法的递归特征消除来去除最不重要的特征。

4.根据权利要求2所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的样本数量均衡化操作的具体步骤包括:(1)计算需要生成的BBB‑样本数G,公式为:

G=(nBBB+‑nBBB‑)*λ

其中nBBB+为BBB+样本数,nBBB‑为BBB‑样本数,λ为平衡值,取1时表示均衡化后的BBB+样本数与BBB‑样本数的比例为1:1;

(2)基于欧氏距离,对所有少数类样本计算K近邻中多数类样本数的占比r:

ri=ci/K

其中ci为K近邻中多数类的样本数,ri为第i个少数类样本周围多数类样本数占所有样本数的比例,i=1,2,…,nBBB‑;

(3)对ri进行标准化:

(4)基于需要生成的总样本数G以及标准化后每个少数类样本周围的多数类样本数 计算每个少数类样本需要生成的新少数类样本数gi,公式如下:(5)对于每个少数类样本xi,在该样本与其他少数类样本之间的随机位置,生成gi个新少数类样本,生成公式如下:si=xi+(xK‑xi)*θ

其中si为新生成的样本,xK为少数类样本xi在K近邻中随机一个相邻的少数类样本,θ为随机数,取(0,1),为防止新生成的样本覆盖原有样本,θ不能取0或1。

5.根据权利要求1所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第五步中,具体步骤包括:(1)构建化合物BBB渗透性预测模型的原型:输入的数据经过数据预处理后,交付给完成选择的k个基学习器分别进行预测,得出的k种预测结果构造成一个k列堆叠矩阵,交付给最佳融合学习器预测,由此得到的融合预测结果作为预测模型的预测结果;

(2)使用网格搜索算法对上一步得到的化合物BBB渗透性预测模型进行参数调优:分别给出k个基学习器以及融合学习器各自需要调优的参数列表,参数列表以网格形式排列,构成模型参数的所有搭配可能;由算法调用模型并根据参数列表自动设置参数进行训练,获取并记录每次不同参数的结果,最终输出结果最佳的模型参数,完成模型的调参优化。

6.根据权利要求1所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,所述的第六步中,具体方法为:应用同一数据集,将化合物BBB渗透性预测模型与传统预测模型包括但不限于LR、MLP和RF进行预测结果比较,进行比较时,选用AUC、MCC、SE和SP作为模型的评估指标。

7.一种基于堆叠学习算法的化合物BBB渗透性预测装置,用于运行权利要求1‑6任一所述的基于堆叠学习算法的化合物血脑屏障渗透性预测方法,其特征在于,包括化合物数据获取模块、数据预处理模块、基学习器选择模块、融合学习器遴选模块、堆叠学习模型训练模块、化合物BBB渗透性预测模块;

所述化合物数据获取模块用于:收集已知BBB标签的化合物,获取这些化合物的SMILES分子式,并与其对应的BBB标签组合成化合物样本,构成初始的数据集;所述数据预处理模块用于:清洗待训练数据集中重复或异常的数据样本、生成数据集的特征向量,并进行特征筛选以及样本数量均衡化操作;所述基学习器选择模块用于:首先构建一个由多个学习器个体组成的学习器集合,然后将经过预处理的BBB数据集输入至学习器集合中的每一种学习器进行处理,得到上述学习器个体各自的训练性能P、训练耗时T,对于任意两个学习器个体mi和mj,计算它们之间的差异值D(mi,mj);根据mi和mj对于堆叠学习算法的贡献度S(mi,mj),选择贡献度最大的若干对学习器个体组合,将这些组合中所有的学习器个体作为堆叠学习算法的基学习器,其中学习器个体mi,mj对于堆叠学习算法的贡献度的计算公式为:所述融合学习器遴选模块用于:首先将经过预处理的BBB

数据集分别输入至第三步中已选出的k个基学习器中进行训练,得到k种不同的预测结果;

然后从学习器集合中选择任意一个学习器个体作为融合学习器,将上述k种不同的预测结果构造成一个k列矩阵,称为堆叠矩阵,将该堆叠矩阵输入到融合学习器中进行预测,得到该学习器个体的预测结果;最后当学习器集合中的所有学习器个体均被使用后,依据AUC指标,将所有学习器个体作为融合学习器的预测结果从好到差进行排列,遴选出最好结果者作为最佳融合学习器;所述基于堆叠学习算法的化合物BBB渗透性预测模型构建模块用于:根据输入的经过预处理的BBB数据,以及完成选择的最佳基学习器和融合学习器,构建基于堆叠学习算法的预测模型原型,并完成参数调优,最终获得训练好的化合物BBB渗透性预测模型;所述化合物BBB渗透性预测模块用于:采用训练好的化合物BBB渗透性预测模型,进行未知化合物样本的预测。