1.一种基于多种群系综变异策略的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:
1)给定目标蛋白的序列信息;
2)根据目标蛋白序列从ROBETTA服务器上得到片段库文件,其中包括3片段库文件和9片段库文件;
3)根据序列信息从QUARK服务器上得到距离谱文件;
4)设置参数:种群大小NP,算法的最大迭代代数G,交叉因子CR,温度因子β,置迭代代数g=0;
5)种群初始化:随机片段组装生成NP个初始构象Ci,i={1,2,…,NP},把NP个个体平均分成四个子种群,即 和 其中,j={1,2,…,NP/4},k={NP/4+1,…,NP/2},m={NP/2+1,…,NP3/4},n={3NP/4+1,…,NP};
6)对第一个子种群中的个体 进行如下操作:
6.1)将 设为目标个体 在第一个子种群中随机选出一个构象个体从剩下的三个子种群中随机选择两个子种群,再分别从这两个子种群中随机取出两个个体Ca,Cb,分别从Ca、Cb中随机选择一个位置不同的9片段,分别替换到 对应的位置的片段生成变异构象 对 进行一次片段组装生成构象
6.2)随机生成一个0和1之间的均匀分布小数R,若R>CR,则从 上随机选择一个9片段替换到 对应位置;否则保持 不变,把这一操作的到的构象记为测试构象
6.3)用Rosetta score3能量函数分别计算 与 的能量: 和
6.4)若 则构象 替换 接收次数count1加
1,并转到步骤6.8),否则,继续执行步骤6.5);
6.5)根据距离谱中的残基对分别计算 和 的残基间距离 和 然后分别根据公式(1)、(2)计算 和 的距离误差系数Dtrial和Dtarget,其中,T表示距离谱中残基对的数量, 和 分别表示 和 构象中第t对残基对应Cα原子之间的距离,dN表示距离谱第N个距离区间中距离谱的平均值,PDN表示距离谱长度在区间N内的数量,距离谱中距离范围为(0,9),距离间隔为0.5,即距离区间为(0,0.5],(0.5,1],…,(8.5,9);
6.6)若Dtrial
6.7)计算目标构象和测试构象的距离误差系数差▽D=Dtarget-Dtrial,按照概率以蒙特卡洛准则接受构象 其中β为温度因子;
6.8)j=j+1,迭代运行步骤6.1)~6.8),至j=NP/4为止;
7)对第二个子种群中每一个构象 进行操作,操作如下:
7.1)将构象 记作目标个体 从第二个子种群中选择一个能量最低的构象从其它三个子群中随机选择其中两个种群,并从它们中的分别随机选择两个构象Cc、Cd,分别对Cc、Cd不同位置随机选择一个9片段,替换给 对应的位置,生成对 进行一次片段组装生成构象
7.2)根据6.2)~6.7)对应的步骤对 和 进行操作,其中,测试构象被接收的次数记为count2;
7.3)k=k+1,迭代运行步骤7.1)~7.2),至k=NP/2为止;
8)对第三组子种群中每个构象 进行操作,操作如下:
8.1)将构象 记为目标个体 对第三组子种群按能量从小到大进行排序,在前一半的构象中随机选择一个个体 然后从其它三个子种群中随机选择两个子种群,再从这两个子种群中分别随机选择构象Ce和Cf,分别对Ce、Cf不同位置随机选择一个9片段,替换给Cpbest对应的位置,生成 对 进行一次片段组装生成构象
8.2)根据6.2)~6.7)对应的步骤对构象 和 进行操作,其中,测试构象被接收的次数记为count3;
8.3)m=m+1,迭代运行步骤8.1)~8.2),至k=NP3/4为止;
9)对第四组子种群中的所有构象 进行Rosetta片段组装操作;
10)迭代运行步骤6)~9),每隔20代统计count1、count2、count3的大小,选择count1、count2、count3中的最大值所对应的种群变异策略的方式对第四个子种群进行变异,根据步骤6.2)~6.8)进行操作,并把count1、count2、count3置零;
11)g=g+1,迭代运行步骤6)~10),至g>G为止;
12)输出结果。