1.一种基于距离分布估计的蛋白质预测方法,其特征在于:所述方法包括以下步骤:
1)给定输入序列信息;
2)能量函数E(x)采用Rosetta的打分函数score3;
3)参数初始化:设置种群规模Psize,学习阶段迭代次数G1,搜索阶段最大的迭代次数Gmax,连续拒绝数Cmax,窗口长度l,距离间隔为r,参数t,结构相似度阈值Rcut,初始温度常数KT;
4)基于过程的构象知识构建距离分布,过程如下:
4.1)启动Psize条轨迹,每条轨迹采样G1次;在采样中对每个个体进行片段组装,并利用Monte Carlo机制判断是否接收该片段的插入,记录接收的总次数Num,并且将每一次接收后的构象保存到构象集X={xi|i∈N+且i<Num};
4.2)对构象集X中所有的构象进行聚类选出潜在的构象,具体操作如下:
4.2.1)在当前构象集X中,选出能量最低的构象x,x∈X,将x从X中移到构象集X′;
4.2.2)依次计算构象集X中的每一个构象xi与x基于Cα原子的均方根偏差R;如果R≤Rcut,则将xi从X中移到构象集X′;
4.2.3)统计构象集X′中含有的构象个数Num′,如果Num′>t·Num,则转至步骤4.3.4),否则转至步骤4.3.1);
4.2.4)利用构象集X′中所有构象x′,x′∈X′的结构信息,以滑动窗口的形式遍历计算每个残基对的空间距离d′mn,其中n=m+l;
4.2.5)以r为间隔进行划分,统计构象集X′中d′mn落入各个距离区间[a,b]的构象个数即a<d′mn≤b,则 其中b=a+r且a>0,b<3.78l。如果构象集X′中没有d′mn落入区间[a,b],则
4.2.6)目标个体所有 组成目标个体的距离分布;
5)对构象集X′中所有的构象根据能量进行排序,选出能量最低的前Psize个构象并进行编号x′j,j∈{j=1,...,Psize}为潜在构象;
6)对每个目标个体x′j,j∈{j=1,...,Psize}进行如下操作:
6.1)利用能量函数计算构象x′j的能量E(x′j);
6.2)对个体x′j进行片段组装生成个体 并计算个体 的能量
6.3)根据公式 计算x′j和 的能量变化;如果ΔE<0,则直接接收个体 为变异个体x″j;如果ΔE≥0,根据公式p=e-ΔE/kT计算玻尔兹曼概率p;
6.4)如果p>rand其中rand∈[0,1]的随机数,则接受个体 为变异个体x″j转至步骤
7),否则更新变异拒绝次数,进行步骤6.5);
6.5)如果连续拒绝了Cmax次,则增大温度常数,即KT=KT+1,否则温度常数保持不变;
7)对每个目标个体x′j,j∈{j=1,.2..,Psize}和变异个体x″j,j∈{j=1,.2..,Psize}进行如下选择操作:
7.1)遍历计算目标个体x′j中第m和第n个残基Cα原子间的距离 确定出 所对应的区间[a,b],并将距离分布中对应的 赋给变量Nmn,即
7.2)根据公式 计算目标个体x′j的距离分布得分;
7.3)同理就算变异个体x″j的距离分布得分S(x″j);
7.4)利用能量函数分别计算目标个体x′j和变异个体x″j的能量E(x′j)和
7.5)如果 则变异个体x″j直接进入下一代,并作为下一代的父代个体,否则进入步骤7.6);
7.6)根据公式ΔS=S(x″j)-S(x′j)计算目标个体与变异个体的距离分布得分差,如果ΔS<0则变异个体x″j进入下一代,并作为下一代的父代个体,否则个体x′j进入下一代。
8)判断是否达到最大迭代代数Gmax,若达到最大迭代代数,则输出结果,否则转至步骤
6)。