1.一种基于二级结构空间距离约束的蛋白质构象搜索方法,其特征在于:所述构象空间搜索方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置种群规模NP,最大遗传代数Gmax,确定交叉概率Pc,初始种群迭代次数iteration,交叉片段长度frag_length,组装计数器reject_number,最大组装次数reject_max,先验知识中二级结构的空间长度以及相邻两个二级结构中心残基间的空间距离构成的特征向量D={d1,…,dm,d1,2,…,dk,k+1},其中dm是目标蛋白的第m个二级结构块的长度,dk,k+1是第k个二级结构块和第k+1个二级结构中心残基的空间距离,最大距离约束范围δ,选择概率Ps;
3)初始化种群:启动NP条Monte Carlo轨迹,每条轨迹搜索iteration次,即生成NP个初始个体;
4)对每个目标个体xi和随机选取的个体xj进行如下操作,i,j∈(1,...,NP)且j≠i:
4.1)按概率Pc对个体xi和xj进行交叉操作,过程如下:
4.1.1)在允许范围[1,total_residue-frag_length]内随机选择交叉起始点begin_position,同时计算出交叉终止点end_position=begin_position+frag_length,其中total_residue为残基总数;
4.1.2)在每个交叉位点position∈[begin_position,end_position]处进行扭转角度交换,生成新个体x′i,x′j,即交叉个体x′i,x′j;
4.2)对交叉个体x′i,x′j进行如下变异操作,过程如下:
4.2.1)利用片段组装技术对交叉个体x′i进行空间构象搜索,计算出交叉个体x′i片段组装后的二级结构的长度以及相邻两个二级结构中心残基间的空间距离,并构成距离向量其中 是交叉个体x′i中第m个二级结构块的长度, 是交叉个体x′i中第k个二级结构块中心残基和第k+1个二级结构块中心残基的空间距离;
4.2.2)根据公式 计算出个体x′i
的特征向量 与先验知识中的特征向量D={d1,…,dm,d1,2,…,
dk,k+1}的Manhattan距离,若similarity_mutation_1≤δ则变异生成的个体x″i满足二级结构空间距离约束,转至步骤4.2.4),否则转至4.2.3);
4.2.3)计数器reject_number开始计数,如果reject_number≤reject_max则依次执行步骤4.2.1)和4.2.2)生成新个体x″i,直到满足similarity_mutation_1≤δ停止;否则执行步骤4.2.1)生成新个体x″i;
4.2.4)与步骤4.2.1)和4.2.2)同理对个体x′j进行片段组装并计算相应的Manhattan距离值similarity_mutation_2,最后得到新个体x″j;
4.2.5)根据公式 计算出目标个体xi
的距离向量 与先验知识中的特征向量D={d1,…,dm,d1,2,…,
dk,k+1}的Manhattan距离;
5)根据目标个体xi和变异个体x″i、x″j的能量和距离相似度进行选择,选出优势个体并更新种群,过程如下:
5.1)根据Rosetta Score3函数E(xi)分别计算目标个体xi和变异个体x″i、x″j的能量E(xi)、E(x″i)和E(x″j);
5.2)在目标个体xi和变异个体x″i、x″j中,若某一个体X,X∈{xi,x″i,x″j}的能量值小于其他两个个体的能量值,同时对应的Manhattan距离值也比其他两个个体对应的Manhattan距离值小,则该个体为优势个体;若某一个体X′,X′∈{xi,x″i,x″j}只有能量值比其他两个个体的能量值小,则按选择概率Ps将该个体设为优势个体;同理,若某一个体X″,X″∈{xi,x″i,x″j}只有对应的Manhattan距离值比其他两个个体对应的Manhattan距离值小,则按选择概率Ps将该个体设为优势个体;最后,优势个体替代目标个体,更新种群;
6)判断是否达到最大遗传代数Gmax,若满足终止条件,则输出结果,否则转至步骤4)。