1.一种基于副本交换和有偏分布估计的蛋白质构象空间优化方法,其特征在于,所述蛋白质构象空间优化方法包括以下步骤:
1)输入预测蛋白质的序列信息;
2)参数设置:种群规模NP,最大迭代次数Gmax,副本层数M,起始温度KT1,终止温度KTM,片段组装次数N,Rosetta Score3能量函数;
3)种群初始化,过程如下:
3.1)生成M个副本种群{PR1,PR2,...,PRM}, 其中m∈{1,2,...,M}, 表示第m个副本种群中的第n个个体,n∈{1,2,...,NP};
3.2)按如下公式设置第m个副本种群PRm的温度KTm:
3.3)对每个副本种群中的每一个个体 进行片段组装,直至所有的 所有残基都至少被替换一次;
4)副本种群交换,过程如下:
4.1)设g=1,其中g∈{1,2,...,Gmax};
4.2)随机选择两个相邻副本种群PRi,PRi+1,其中i∈{1,2,…,M-1},在[1,NP]内随机生成互异的正整数random1、random2;
4.3)根据Rosetta score3能量函数计算种群PRi中第random1个个体xrandom1的能量E1和种群PRi+1中第random2个个体xrandom2的能量E2;
4.4)按如下公式计算副本交换概率Pac:
4.5)在0到1之间生成随机数random3;当random3≤Pac时,交换种群PRi中个体xrandom1与种群PRi+1中个体xrandom2,否则不进行副本交换操作;
4.6)在温度KTm下对种群PRm的每个个体 进行片段组装,n∈[1,NP],组装至构象所有位置的残基类型都至少替换过一次;
4.7)重复步骤4.6),直至所有的副本种群都完成步骤4.6)的操作;
4.8)g=g+1;若g≤Gmax,转至步骤4.2);
5)有偏分布估计片段组装,过程如下:
5.1)设g′=1,将片段库中所有片段按如下公式设置标识号:k=p*Nb+r
其中k是片段的标识号,p是该片段对应的窗口编号,Nb是每个窗口包含的片段总数,r是该片段在其对应的窗口中的排列序号;
5.2)对所有副本种群中每个个体 进行N次片段组装;
5.3)对组装过程中产生的构象根据能量由低到高进行排序,并选取排名前15%的构象形成集合D,设置g′=g′+1;
5.4)统计集合D所有构象中每个被使用的片段k的组装次数t,并根据如下公式计算使用概率其中T是所有片段的使用次数,k∈[0,(L-l+1)Nb],L是蛋白质序列长度,l是窗口长度;
5.5)随机产生一个随机数random4,random4∈[0,1],由如下公式计算该片段的组装概率其中 是片段k此次迭代的组装概率, 是上次迭代的组装概率,g′为当前迭代次数;
5.6)由公式 计算每个片段的累积概率,其中qk是片段k的累积概率,s是集合D中所有被使用的片段总数,kf表示片段k在所有被使用的片段中按片段标识号从小到大排列后是第f个片段, 表示在所有被使用的片段中排列第f的片段k的组装概率;
5.7)随机产生一个随机数random5,random5∈[0,1],当random5≤qk时,则片段k被选中,将片段k组装到个体对应的位置上,如此操作N次结束;
5.8)迭代的运行步骤5.3)~5.7),直至满足g′=Gmax;
5.9)使用能量函数对种群进行选择:把所有的种群合并成一个新种群,根据能量函数计算新种群每个个体的能量,根据能量的高低对合并的种群个体进行排序,输出能量最低的个体作为最终预测结果。