1.一种基于Loop信息采样的群体蛋白质构象空间优化方法,其特征在于,所述方法包括以下步骤:
1)设置种群规模N、迭代代数I、交叉概率R、初始化片段组装上限为Max,温度常数kT,读入目标蛋白序列,片段库信息,预测二级结构信息以及拉氏图信息;
2)根据目标蛋白序列得到初始直链,并将初始直链复制形成规模为N大小的种群,用Rosetta协议的stage1对种群所有个体进行初始化,种群个体每个位置上的残基均被替换至少一次以上或达到Max次片段组装上限则视为初始化成功;
3)种群交叉,过程如下:
3.1)将种群个体随机配对,以交叉概率R判断是否进行交叉,若进行交叉,跳至步骤
3.2),若不进行交叉,则跳至步骤4)
3.2)根据用户读入的目标蛋白预测二级结构,统计目标的Loop区域数量以及长度;
3.3)随机选取目标蛋白的其中一个完整的Loop区域,然后交换两个候选个体该长度范围内所有残基的二面角信息;
4)种群二级结构区域变异,对于种群个体i,二级结构区域变异过程如下:
4.1)根据目标蛋白的Loop区域信息记录个体i的所有Loop区域的残基二面角信息;
4.2)对个体进行9片段片段组装,生成个体i',若片段组装发生在非Loop区域,则用
4.1)保存的残基二面角信息去替换个体i'中相应区域的二面角信息,即片段组装只会发生在Loop区域,非Loop区域的结构信息不会改变;
4.3)用能量函数“score3”对变异前后个体i和i'进行能量评价,若能量变小,则接收变异后个体i',若能量变大,则以Boltzmann概率 接收变异后个体i',其中ΔE为个体i和i'的能量差值;
5)基于拉氏图重要性采样对Loop区域局部结构增强,过程如下:
5.1)统计二级结构为Loop的残基的二面角在拉氏图中分布信息,记录并进行归一化;
5.2)对于种群个体j,随机选取其中一个Loop区域,用拉氏图中角度来替换个体j的Loop区域的残基二面角信息,生成个体j';
5.3)用能量函数“score3”对局部增强前后个体j和j'进行能量评价,若能量变小,则接收局部增强后个体j';若能量变大,则以Boltzmann概率接收变异后个体j';
5.4)对种群所有个体都完成基于拉氏图的Loop区域扰动之后,统计拉氏图中每个格子被采样的概率,并根据重要性公式来确定下一代拉氏图中每个格子的选取概率;
6)基于二级结构相似度和能量函数进行选择,过程如下:
6.1)对于种群中的目标个体i,用Dssp算法获取该个体的二级结构信息;
6.2)将两者每个位置上的残基类型进行一一比较,若相同则两者的二级结构比对分数加1,全部比对完后得两者二级结构比对分数,除以目标蛋白序列长度获得该个体的二级结构相似度;
6.3)将交叉前的初始种群和经过拉氏图局部增强后的种群组成成为一个新的种群;
6.4)计算种群中所有个体的二级结构相似度以及能量分数,利用这两个指标对种群进行排序,选择排名靠前的N个个体作为下一次迭代的母代;
7)判断是否达到最大得迭代次数I,若满足条件则停止迭代并输出最后一代种群个体信息,否则返回步骤3)。