1.一种基于分布估计和副本交换策略的蛋白质构象空间优化方法,其特征在于:所述构象空间搜索方法包括以下步骤:
1)给定输入序列信息;
2)参数初始化:设置种群规模NP,确定交叉率Pc,初始种群迭代次数iteration,选用Rosetta Score3能量函数E(xi),xi为个体,i=1,2,...,NP,概率模型选择常数λ,δ,μ,τ,副本层数I,第一个副本层温度常数T1,温度梯度k∈(0,1);
3)构建概率分布模型:在每个副本层,启动NP条Monte Carlo轨迹,每条轨迹搜索iteration次,即完成种群初始化,同时完成概率模型的构建,过程如下:
3.1)在每次迭代中,统计每个个体xi的残基position被成功采样的次数 根据公式 得到个体xi的残基position被采样的总次数,其中, 是当前个体,t是当前迭代次数,由此得到残基position被采样的概率;
3.2)迭代结束后,根据公式 计算出个体xi中残基position总的采样的概率,并构建残基采样概率分布模型M={P1,P2,P3,…,Plast},last=residue_total-
9,其中residue_total是片段总长度;
3.3)在每次迭代中,根据公式 得到残基position处每个片段被接受的次数
3.4)迭代结束后,根据公式 计算出每个片段被接受的概率,其中P′frag_key是在采样中片段frag_key被接受的概率,其中 代表个体xi中残基position对应的片段frag_key被接受的总次数,构建片段采样概率分布模型Γ={P′1,P′2,...,P′frag_total},其中frag_total是片段库中每个窗口拥有的片段总数;
4)在每个副本层对初始种群中的每个个体进行如下操作:
4.1)根据建立的概率模型对每个目标个体xi和随机选取的个体xj,j∈(j=1,...,NP)且j≠i进行变异操作,过程如下:
4.1.1)根据残基采样概率分布模型M指导残基位置的采样,即随机选择残基position,如果Pposition∈[a,b]则转至步骤4.1.3),否则按设定的概率δ进行采样,其中b为残基采样概率分布模型M中最大的采样概率,即b=max{P1,P2,...,Pl},a=λ*b,l是目标序列的最后一个片段插入点;
4.1.2)根据片段搜索概率分布模型Γ指导片段空间的选择,即残基position确定后,在片段库中随机选择一个相应的片段,如果该片段的分布概率满足Pfrag_key∈[c,d],则转至步骤4.1.3),否则按设定的概率μ进行采样,其中d=max{P′1,P′2,...,P′frag_total},c=τd;
4.1.3)生成变异个体x′i和x′j;
4.2)对变异生成的新个体x′i,x′j按概率Pc对个体x′i和x′j进行如下操作:
4.2.1)随机选择交叉起始点cross_begin,1≤cross_begin≤total_residue-frag_length和交叉片段长度frag_length,frag_length∈[3,10]的随机数,其中total_residue为残基总数,根据公式cross_begin+frag_length=cross_end确定出交叉终止点cross_end;
4.2.2)交换个体x′i和x′j在每个交叉位点position_cross,frag_length≤position_cross≤cross_end处的扭转角,分别生成新个体x″i,x″j;
4.3)根据Rosetta Score3函数E(xi)分别计算目标个体xi和变异个体x″i、x″j的能量E(xi)、E(x″i)和E(x″j);
4.4)若E(xi)>min{E(x″i),E(x″j)}则用变异个体x″i和x″j中能量较小者替代目标个体xi,即更新种群,否则种群保持不变;
5)当所有副本层的种群都完成一次更新,进行副本交换操作,过程如下:
5.1)随机选择两个相邻的温度层Tj和Tj+1,j=1,2,...,I-1;
5.2)选择交换个体 和 其中i=1,2,...,NP,j=1,2,...,I-1;
5.3)根据公式 计算交换判别因子,其中,kB是波尔兹曼常
数,Tj=T1-(j-1)*k是为第j个温度层的开尔文温度, 为种群个体 的能量值;
5.4)产生一个随机数Pm∈(0,1),若Pm<judge,则,将相邻温度层中的个体 和 进行交换;
6)判断是否满足终止条件,如不满足则转至4);如满足终止条件,则输出结果。
2.如权利要求1所述的一种基于分布估计和副本交换策略的蛋白质构象空间优化方法,其特征在于:所述步骤2)中,设置最大迭代代数Gmax,所述步骤6)中,终止条件为种群迭代次数到达最大迭代次数Gmax。