1.一种系综构象选择策略自适应的蛋白质结构预测方法,其特征在于:所述方法包括以下步骤:
1)利用PSIPRED预测查询序列的二级结构信息,利用MetaPSICO预测查询序列的残基间距离接触信息;
2)设置初始种群规模NP、最大迭代次数Gen、交叉概率CR、输入查询序列、片段库、片段组装次数M和迭代次数g=0;
3)对种群所有构象进行初始化,对种群中每个构象进行M次片段组装;
4)构象交叉,操作如下:
4.1)选择第i,i∈[1,NP]个构象Ci为目标构象,产生一个随机数r,r∈[0,1],如果r小于CR,则跳到4.2),否则跳至步骤5);
4.2)随机选择一个构象Cj,j≠i,利用计算二级结构算法DSSP获取构象Ci和Cj的二级结构信息;
4.3)根据Ci残基位置随机选择一个交叉点p,判断交叉点p对应的残基被预测的二级结构的类型;
4.4)针对Ci和Cj,从交叉点p开始依次互换二面角对直到从交叉点p起预测的二级结构类型和交叉点p处对应的二级结构类型不同为止,产生两个新构象C′i和C′j;
5)构象变异,对构象C′i和C′j,变异过程如下:对构象C′i进行3残基片段组装,对C′j进行9残基片段组装,生成两个构象C″i和C″j;
6)分别对构象C″i和C″j求二级结构相似性分值Ess:其中L是查询序列长度, 是查询序列第l个残基预测的二级结构, 是测试构象的第l个残基的二级结构,其值由DSSP求得;
7)分别对构象C″i和C″j求残基间距离约束分值Eco:其中N是残基接触总数, 是查询序列第k个残基对p和q被预测为有接触的置信度,是测试构象的第k个残基对p和q之间的Cα距离,dcon是预测为接触的阈值,
8)求种群中每个构象的二级结构相似性分值Ess,计算种群二级结构相似性分值的平均值 和方差σ;
9)根据平均值 和方差σ,求选择策略切换概率pse:其中L是查询序列的长度, 和σ分别是种群二级结构相似性分值的平均值和方差;
10)基于选择策略切换概率pse进行选择,过程如下:
10.1)产生一个随机数r′,r′∈[0,1],如果r′
10.2)根据二级结构相似性分值进行种群更新,过程如下:
10.2.1)对种群中的每个构象求二级结构相似性分值Ess,并求出最小的二级结构相似性分值E″ss;
10.2.2)从构象C″i和C″j中选择二级结构相似得分E′ss最高的构象作为测试构象;
10.2.3)如果E′ss大于E″ss,则用E′ss对应的构象替换E″ss对应的构象实现种群更新,否则跳至10.4);
10.3)根据残基间距离约束进行选择,过程如下:
10.3.1)对种群中的每个构象求残基间距离约束分值Eco,并求出最小的残基间距离约束分值E″co;
10.3.2)从构象C″i和C″j中选择残基间距离约束分值E′co最高的构象作为测试构象;
10.3.3)如果E′co大于E″co,则用E′co对应的构象替换E″co对应的构象实现种群更新,否则跳到10.4);
10.4)根据能量值进行种群更新,过程如下:
10.4.1)对种群中的每个构象利用能量函数Rosetta score3计算能量值E,并计算出最大的能量值E′,分别对构象C″i和C″j利用能量函数Rosetta score3计算能量值Ei和Ej,并计算最小的能量值E″;
10.4.2)如果能量值E′>E″,则用E″对应的构象替换种群中E′对应的构象,否则保持种群不变;
11)g=g+1,判断是否达到最大迭代次数Gen,若不满足条件终止条件,则遍历种群执行步骤4),否则输出能量最低的构象作为最后预测结果。