1.一种基于两阶段采样的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:
1)给定输入序列信息,选择Rosetta score3为能量函数E(x);
2)参数初始化:设置种群规模NP,初始构象迭代次数Iter,最大迭代次数Gmax,变异连续拒绝最大值Cmax,状态估计阈值H,温度常数KT,温度变化值t;
3)初始化种群:启动NP条Monte Carlo轨迹,每条轨迹搜索Iter次,即生成NP个初始个体;
4)对种群中每个个体 g∈N+进行全局探测,使其形成稳定的拓扑结构,其中g为迭代代数,过程如下:
4.1)对个体 进行如下的变异操作生成变异个体 过程如下:
4.1.1)利用能量函数计算目标个体 的能量值
4.1.2)对个体 进行9片段组装,生成新个体 利用能量函数计算 的能量值并计算目标个体 与新个体 的能量变化即
4.1.3)根据Monte Carlo机制判断是否接收个体 如果ΔE<0,则接受个体 为变异个体,并转至步骤4.2)进行选择操作,否则进行步骤4.1.4);
4.1.4)根据公式p=e-ΔE/kT计算接受概率p,如果p>random,则接受个体 为变异个体转至步骤4.2),否则更新变异拒绝次数,进行步骤4.1.5),其中random是随机数random∈[0,1];
4.1.5)如果连续拒绝了Cmax次,则增大温度常数,即KT=KT+t,否则温度常数保持不变;
4.2)对目标个体 和变异个体 进行选择操作,能量较低的一个个体进入下一代;
4.3)如果i=NP,则进入步骤5)进入状态估计,否则转至步骤4.1);
5)根据相邻两代种群的信息,进行状态估计,过程如下:
5.1)计算相邻两代对应个体 和 之间基于Cα原子的均方根偏差R,如果R<H,则fg(i)=1,否则fg(i)=0;其中,fg(i)是状态估计函数;
5.2)根据公式 计算状态估计值,如果状态估计值Fg=NP则转至步骤6)进入局部增强阶段,否则转至步骤4.1)继续进行全局探测;
6)设置迭代计数器g=0;
7)对每个个体 进行loop区域的局部增强,使其形成更加紧密的三维结构,操作如下:
7.1)利用能量函数计算目标个体 的能量值
7.2)随机选择一个loop区域,并且在该区域进行3片段组装,生成新个体 并计算个体 的能量值
7.3)计算目标个体 与个体 的能量变化值即 如果ΔE<0,则接受个体 为变异个体并转至步骤7.2)进行选择操作,否则按概率p接受个体,其中p=e-ΔE/kT;
7.4)如果连续拒绝Cmax次,如果是则增大温度常数,即KT=KT+t,否则温度常数保持不变;
7.5)对目标个体 和变异个体 进行选择操作,能量较低的一个个体进入下一代;
8)判断是否满足终止条件g>Gmax,若满足终止条件,则停止迭代,否则进入下一代,返回步骤7)。