1.一种基于残基接触信息自学习的蛋白质结构预测方法,其特征在于:所述蛋白质结构预测方法包括以下步骤:
1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;
2)利用RaptorX-Contact预测该序列的接触图,获得N个残基对的接触情况,并将接触图中的第k个残基对间的接触,接触是指Cα-Cα欧氏距离小于 接触概率表示为Pk,k∈{1,...,N};
3)初始化:种群规模NP,信息熵阈值α,种群第一阶段和第二阶段最大迭代次数分别为G1,G2,根据输入序列,执行Rosetta Abinitio协议的第一与第二阶段NP次,产生初始构象种群P={C1,C2,...,CNP},其中CNP表示第NP个个体,记当前代数g=0;
4)进入种群进化第一阶段,过程如下:
4.1)利用能量函数Rosetta score3对种群所有个体进行评分,并由高到低排序;
4.2)对前50%的个体分别进行片段组装,片段长度为9,并且根据Metropolis准则概率接收,g=g+1;
5)计算当前种群的熵值,过程如下:
5.1)残基对间距离离散化:根据第k个残基对的Cα-Cα欧氏距离dk,满足 以为间隔将dk离散化为13个区域,每个区域对应相应的距离范围,具体规则如下:表示向下取整,B表示区域索引号,B∈{1,...,13};
5.2)计算种群在第k个残基对落入第B块区域的比例qk,B;
5.3)学习当前种群的残基对的距离分布:
当g=0,令 其中w是学习保守因子,0≤w≤1;
5.4)根据当前种群的分布情况建立信息熵指标
6)判断种群是否满足切换条件E<α或者g>G1,若满足,结束种群进化第一阶段,执行下一步;否则返回步骤4);
7)记第一阶段最终学习得到的残基对距离分布 为Lk,B,并记g=0;
8)进入种群进化第二阶段,过程如下:
8.1)以个体Ci,i∈{1,...,NP}为目标个体,对其进行片段组装,片段长度为3,得到测试个体Ci′;
8.2)利用Rosetta score3评价Ci和Ci′,得到各自的能量值为E和E′;
8.3)利用残基对距离分布Lk,B建立残基对距离评分函数,分别计算Ci和Ci′的k个残基对距离落入的区域,记为b1,b2,...,bm...,bk和b1′,b2′,...,bn′...,bk′,bm∈{1,2...,13},bn′∈{1,2...,13},m∈{1,2...,k},n∈{1,2...,k},该评分函数可以表示为:
8.4)若满足E>E′,S>S′,则接受Ci′,令Ci=Ci′;
8.5)否则随机选择能量函数或者残基对距离评分函数,并根据Metropolis标准选择;
8.6)遍历当前种群所有个体,得到下一代种群,令g=g+1;
8.7)判断是否满足终止条件g>G2,若满足,结束种群进化第二阶段,执行下一步;否则返回8.1);
9)利用SPICKER对第二阶段接受的构象进行聚类,将最大类的类心构象看作最终预测结果。