1.一种基于多样性指标的群体蛋白质构象空间优化方法,其特征在于,所述优化方法包括以下步骤:
1)给定输入序列信息;
2)设置参数:种群大小NP,重组因子RC,最大迭代代数Gmax,多样性接收概率p;
3)利用PSIPRED预测查询序列的二级结构信息;
4)初始化:首先通过用Rosetta第一阶段进行片段组装生成一个规模为NP的初始种群P={xi|i∈I},其中i为种群个体编号,I为种群个体编号集合,I={1,2,...,NP},xi表示第i个个体;
5)采用Rosetta第二阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群;
6)构象重组,过程如下:
6.1)从当前种群中选择两个不同的个体xa和xb,其中,a,b∈{1,2,...,NP},a≠b;根据二级结构信息随机选取一个loop区域,并在0和1之间随机生成一个均匀分布随机数rand1;
6.2)如果rand1
6.3)重复步骤6.1-6.2)直到种群中的所有个体都进行了构象重组为止,生成新的种群
7)针对种群 中的每一个构象 进行变异,过程如下:
7.1)统计所有loop区域能够进行片段组装位置的数量WL,并计算变异概率
7.2)生成一个0和1之间的均匀分布随机数rand2,如果rand2
7.3)按照步骤7.1)-7.2)对当前种群中的所有构象进行变异后,生成新的种群
8)合并种群 和P中的所有个体,即
9)针对 中的每一个构象 计算多样性指标,过程如下:
9.1)根据每个构象的Cα原子坐标计算每个构象的质心
9.2)计算每个Cα原子到质心 的欧氏距离,并记离质心最远的原子为 离质心最近的原子为
9.3)计算每个Cα原子到 的欧氏距离,并记离 最远的原子为
9.4)分别计算步骤9.2)中所有距离的平均值 偏差 偏度
9.5)分别计算步骤9.3)中所有距离的平均值 偏差 偏度
9.6)计算每个Cα原子到 的距离,并计算这些距离的平均值 偏差 偏度
9.7)计算每个Cα原子到 的距离,并计算这些距离的平均值 偏差 偏度
9.8)将步骤9.4)-9.7)中的距离平均值、偏差和偏度合并得到构象 的特征向量
9.9)计算多样性指标
其中,T={1,2,…,2NP}; 表示向量Ui的第l维元素;
10)针对种群P中的每一个个体xi,i∈I进行更新,过程如下:
10.1)分别根据Rosetta score2计算个体xi和 的能量score(xi)和
10.2)如果 则个体 替换父代个体xi,否则继续步骤10.3);
10.3)如果Di>D′i,则产生一个[0,1]的随机数rand3,如果rand3>p,则个体 替换父代个体xi;
11)对步骤6)-10)进行迭代直到达到最大代数Gmax,然后继续步骤12);
12)采用Rosetta第三阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大代数Gmax,其中能量函数采用Rosetta socre3;
13)采用Rosetta第四阶段的局部搜索策略对每个种群个体进行片段组装形成新的种群,并根据步骤6)-10)进行迭代直到达到最大代数Gmax,其中能量函数采用Rosetta socre4;
14)输出结果。