1.一种基于双层偏置搜索的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:
1)输入目标蛋白质的序列信息;
2)根据目标蛋白质序列从ROBETTA服务器上获取3片段和9片段的片段库文件;
3)设置参数:种群规模NP,最大迭代次数G,能量区间划分个数M,温度因子β;
4)种群初始化:利用Rosetta协议第一阶段产生种群规模为NP的种群C={C1,C2,...,CNP},其中Ci,i=1,2,...,NP为第i个个体;
5)设置g=1,g∈{1,2,...,G};
6)设置n=1,n∈{1,2,...,NP};
7)记Ci′为种群中第i′个个体,i′∈{1,2,...,NP+n‑1},并进行如下操作:
7.1)用Rosetta score3能量函数计算种群中每个个体的能量,个体Ci′的能量为score3(Ci′);
7.2)记Emin和Emax分别为种群中的最低能量和最高能量,设置能量区间[Emin,Emax],将能量区间等分成M个能量子区间,每个能量子区间长度为ΔE, 第m个能量子区间表示为[Emin+(m‑1)ΔE,Emin+mΔE],m∈{1,2,...,M},记Ωm为第m个能量子区间对应的构象集合,并设置
7.3)将种群中的每个个体按能量值分配到相应的子区间内,若score3(Ci′)∈[Emin+(m‑
1)ΔE,Emin+mΔE],则Ωm=Ωm∪{Ci′};
8)父代选择操作,过程如下:
8.1)记Cm,j为第m个能量子区间中的第j个个体,j∈{1,2,...,|Ωm|},按如下公式计算每个能量子区间中的构象平均能量
8.2)按如下公式计算每个能量子区间的选择概率,ε是一个常数:
8.3)按公式(2)计算的概率选择一个能量子区间;
8.4)在选择的子区间内,将每个构象的质心原子、离ctd最近的原子、离ctd最远的原子、离fct最远的原子的坐标分别表示为表示ctd指向cst的三维空间向量,表示ctd指向fct的三维空间向量,表示ctd指向ftf的三维空间向量,按如下公式计算选择的子区间内每个构象的结构差异性,并记Cm,max为具有最大结构差异性数值Dm,max的构象:
8.5)按如下公式计算子区间内每个个体的选择概率,ε是一个常数:selected
8.6)按公式(4)计算的概率选择一个个体,记作C ;
9)变异操作,过程如下:
selected
9.1)在最大差异性构象Cm,max中随机选取一个3片段,替换到选择个体C 的对应位new
置上,生成新的构象C ;
new new′
9.2)利用Rosetta对新构象C 进行一次片段组装,生成构象C ;
new′ new new′
9.3)若score3(C )<score3(C ),则C=C∪{C };否则计算接收概率并生成均匀随机小数rand,rand∈[0,1],若new′ new
rand<Paccept,则C=C∪{C };否则C=C∪{C };
9.4)设置n=n+1;
10)若n>NP,则继续步骤11);否则转至步骤7);
11)淘汰个体选择操作,过程如下:
11.1)执行步骤7);
11.2)执行步骤8.1);
11.3)按如下公式计算每个能量子区间的选择概率,ε是一个常数:
11.4)按公式(5)计算的概率选择一个能量子区间;
11.5)执行步骤8.4);
11.6)按如下公式计算子区间内每个个体的选择概率,ε是一个常数:
11.7)按公式(6)计算的概率选择一个个体,将其从种群中剔除;
11.8)设置n=n‑1;
12)若n=1,设置g=g+1;否则转至步骤11);
13)若g>G,输出最后一代种群C,并选择能量最低的构象作为预测结果;否则转至步骤
6)。