欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021109500262
申请人: 东北林业大学
专利类型:发明专利
专利状态:已下证
更新日期:2023-08-21
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于包括以下步骤:

步骤一:获取原始抗氧化蛋白数据集,并对原始抗氧化蛋白数据集进行分层随机抽样,分为测试集和训练集;

步骤二:分别对训练集和测试集中的每一个数据采用氨基酸组成特征提取算法和蛋白质‑蛋白质相互作用特征提取算法分别提取特征向量,并将得到的两个特征向量进行拼接后得到完整的特征向量,然后利用训练集和测试集中所有数据对应的完整的特征向量得到训练集向量矩阵和测试集向量矩阵;

步骤三:采用多种不平衡处理算法分别对训练集向量矩阵进行不平衡处理,得到多个不平衡处理后的向量矩阵;

步骤四:采用MRMD算法分别对多个不平衡处理后的向量矩阵进行特征选择,得到多个特征子集;

步骤五:采用随机森林分别对多个特征子集中的抗氧化蛋白进行分类训练,得到多个训练好的分类模型;

步骤六:将多个训练好的分类模型应用在测试集向量矩阵中,得到分类结果,然后根据分类结果选择其中适合于抗氧化蛋白数据的不平衡处理方法,进而确定最终的分类模型;

步骤七:利用最终的分类模型完成抗氧化蛋白的识别。

2.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述原始抗氧化蛋白数据集包括正例数据子集和反例数据子集,所述正例数据子集包括抗氧化蛋白序列文件,所述反例数据子集包括非抗氧化蛋白序列文件。

3.根据权利要求2所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述步骤一中获取原始抗氧化蛋白数据集之前还包括对下载的抗氧化蛋白序列数据进行格式判断和内容判断的步骤,所述格式判断和内容判断的具体步骤为:首先,找到抗氧化蛋白序列数据文件以字符串>为开头的行,然后选取下一行的数据作为序列文本数据;之后,判断序列文本数据的内容中是否含有B、J、O、U、X或Z,若含有,则提示输入的文本不符合氨基酸fasta序列,并删除对应数据,若不含有,则保留数据。

4.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述氨基酸组成特征提取算法为CKSAAP,所述蛋白质‑蛋白质相互作用特征提取算法为CT。

5.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述多种不平衡处理算法包括采样算法、欠采样算法和组合采样算法。

6.根据权利要求5所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于:

所述采样算法包括:SMOTE算法、BorderlineSMOTE算法、SVMSMOTE算法和ADASYN算法;

所述欠采样算法包括:ClusterCentroids算法和NearMiss算法;

所述组合采样算法包括:SMOTEENN算法和SMOTETomek算法。

7.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述步骤四中MRMD算法利用maxMRi和maxMDi对多个不平衡处理后的向量矩阵进行特征选择,其中,maxMRi表示为:max MDi表示为:

其中,MRi表示第i个抗氧化蛋白实例类别与特征之间的皮尔逊系数,MDi表示第i个抗氧化蛋白实例特征之间的欧式距离,PCC(·)表示皮尔逊系数,Fi表示第i个抗氧化蛋白实例的特征向量,Ci表示第i个抗氧化蛋白实例的类别向量,M表示抗氧化蛋白实例的特征维数,SFiCi表示Fi中所有元素和Ci中所有元素的协方差,SFi表示Fi中所有元素的标准差,SCi表示Ci中所有元素的标准差,fk表示Fi中的第k个元素,ck表示Ci中的第k个元素,N为Fi和Ci中的元素数量, 为Fi中所有元素的平均值,为Ci中所有元素的平均值,EDi表示第i个抗氧化蛋白实例特征之间的Euclidean距离,COSi表示第i个抗氧化蛋白实例特征之间的Cosine距离,TCi表示第i个抗氧化蛋白实例特征之间的Tanimoto系数。

8.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述步骤五的具体步骤为:步骤五一:初始化设置随机森林算法的最大的子树的个数参数n_estimators;

步骤五二:初始化设置参数调整范围为0‑200,并设置步长为10;

步骤五三:根据步骤五二的参数范围分别对抗氧化蛋白进行分类,然后用交叉验证方法得到不同参数对应的分类精度;

步骤五四:取分类精度最高时对应的参数作为随机森林算法的最终参数,进而得到训练好的分类模型。

9.根据权利要求8所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述分类精度表示为:

其中ACC表示使用随机森林算法对抗氧化蛋白进行分类得到的分类精度,TP表示预测正确的抗氧化蛋白数量,FP表示预测正确的非抗氧化蛋白数量,TN表示预测错误的抗氧化蛋白数量,FN表示预测错误的非抗氧化蛋白数量。

10.根据权利要求1所述的基于氨基酸组成和蛋白质相互作用识别抗氧化蛋白方法,其特征在于所述步骤六中根据分类结果选择其中适合于抗氧化蛋白数据的不平衡处理方法通过评价指标进行,

所述评价指标为:

其中,SE表示分类的灵敏度,SP表示分类的特异性,ACC表示使用随机森林算法对抗氧化蛋白进行分类得到的分类精度,MCC表示马修相关系数,TP表示预测正确的抗氧化蛋白数量,FP表示预测正确的非抗氧化蛋白数量,TN表示预测错误的抗氧化蛋白数量,FN表示预测错误的非抗氧化蛋白数量;

选取ACC大于70%,且MCC大于0.6的模型,然后在选取的模型中选择SE与SP差值最小的模型作为最终模型。