1.一种基于抽象凸估计的k‑近邻蛋白质结构预测方法,其特征在于,所述方法包括以下步骤:
1)输入待测蛋白质的序列信息,并从ROBETTA服务器上得到片段库;
2)参数设置:设置种群规模NP,交叉概率CR,温度因子KT,斜率控制因子M,片段长度为l,近邻个体数量k,最大迭代次数Gmax,并初始化迭代次数g=0;
3)根据输入序列,从每个残基位对应的片段库中随机选择片段进行组装生成初始构象种群P={C1,C2,...,CNP},其中,Ci,i={1,2,…,NP}为种群P中的第i个构象个体;
4)根据Rosetta socre3能量函数计算当前种群中每个构象的能量值;
5)根据当前种群中每个构象Ci,i∈{1,2,…,NP}的碳α原子坐标表示其空间位置坐标并计算每个构象Ci的抽象凸下界估计支撑向量li:其中,E(Ci)为构象Ci的能量, 为构象Ci位置坐标的第t维元素,为构象Ci的空间位置坐标的松弛变量;
6)将当前种群中所有构象按照能量从低到高进行排序;
7)对种群中的每个构象Ci,i∈{1,2,...,NP}执行如下操作:
7.1)将构象Ci看作目标构象,选出当前种群中能量最低的构象Cbest,然后从排名靠前的NP/2构象中随机选取一个与Ci和Cbest均不相同的构象Cpbest;
7.2)分别从Cbest和Cpbest中随机选择一个残基位不同的长度为l的片段替换构象Ci中对应位置的片段,生成变异构象
7.3)随机生成一个0和1之间的小数R,如果R
8)如果g=0,则对每个测试构象 i∈{1,2,...,NP}进行如下操作:
8.1)根据Rosetta score3能量函数计算 的能量值 并将其加入到样本库中;
8.2)如果 则测试构象 替换对应的目标构象Ci,否则根据玻尔兹曼概率 用 替换Ci,其中
9)如果g>0,则对每个测试构象 i∈{1,2,...,NP}进行如下操作:
9.1)计算测试构象 的能量下界估计值 其中t∈{1,2,...,3L}为构象 空间位置坐标的第t维元素,为第i个构象的支撑向量的第t维元素;
9.2)根据构象的空间位置坐标计算测试构象 与样本库中每个样本构象 之间的欧氏距离,其中s=1,2,...,NP;
9.3)选取与 距离最近的k个样本构象,计算测试构象的k‑近邻能量预测值其中, 为所选中的k个样本构象中第n个样本构象的能量值;
9.4)计算构象 的能量估计值
9.5)如果 则目标构象Ci保持不变,其中E(Ci)为目标构象的能量值;
9.6)如果 则根据Rosetta score3能量函数计算测试构象 的能量值
9.7)如果 根据公式(1)计算构象 的支撑向量 并用 替换当前种群中能量最高的构象的支撑向量,同时用 替换样本库能量最高的构象;
9.8)如果 则根据玻尔兹曼概率 用 替换Ci,其中
10)g=g+1,如果g>Gmax,则输出能量最低的构象作为最终预测结构,否则返回步骤6)。