1.一种基于残基接触信息辅助评价的蛋白质结构预测方法,其特征在于,所述蛋白质结构预测方法包括以下步骤:
1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;
2)利用RaptorX-Contact预测该序列的接触图,获得接触概率大于0.6的N个残基对,接触是指Cα-Cα欧氏距离小于 接触概率表示为Pk,k∈{1,...,N};
3)初始化:种群规模NP,种群第一阶段和第二阶段最大迭代次数分别为G1,G2,根据输入序列,执行Rosetta Abinitio协议的第一与第二阶段NP次,产生初始构象种群P={C1,C2,...,CNP},其中CNP表示第NP个个体,记当前代数g=0;
4)进入种群进化第一阶段,过程如下:
4.1)对种群所有个体Ci,i∈{1,...,NP}进行片段组装,片段长度为9,得到候选个体C′i;
4.2)根据N个残基对的接触概率分别计算Ci和C′i的评分函数影响因子μ和μ′:其中dk和d′k分别是Ci和C′i的第k对残基间的Cα-Cα距离,μk和μ′k是对应评分函数影响因子的分项;
4.3)根据能量函数Rosetta score3计算Ci和C′i的能量值Escore3、E′score3:
4.4)利用评分影响因子计算Ci和C′i基于接触的评分s=μEscore3,s′=μ′E′score3,并利用Metropolis准则概率接受,若接受,则令Ci=C′i;
4.5)遍历种群所有个体,得到下一代种群,令g=g+1;
5)累计学习种群残基对距离分布,过程如下:
5.1)残基对间距离离散化:根据第k个残基对的Cα-Cα欧氏距离dk,满足 以为间隔将dk离散化为13个区域,每个区域对应相应的距离范围,规则如下:表示向下取整,B表示区域索引号,B∈{1,...,13};
5.2)计算种群在第k个残基对落入第B块区域的比例qk,B;
5.3)学习当前种群的残基对的距离分布: 当g=1,令 其中w是学习保守因子,0≤w≤1;
6)判断种群进化第一阶段是否结束,若g>G1,则执行下一步;否则返回步骤4);
7)记第一阶段最终学习得到的残基对距离分布 为Lk,B,并记g=0;
8)进入种群进化第二阶段,过程如下:
8.1)对种群所有个体Ci,i∈{1,...,NP}进行片段组装,片段长度为3,得到候选个体C′i;
8.2)利用残基距离分布Lk,B建立残基对距离辅助的评分函数:分别计算Ci和Ci′的k个残基对距离落入的区域,记为b1,b2,...,bm...,bk和b1′,b2′,...,bn′...,bk′,bm∈{1,2...,
13},bn′∈{1,2...,13},m∈{1,2...,k},n∈{1,2...,k},该评分函数可以表示为:其中w是接触信息贡献因子,0≤w≤1;
9)利用Metropolis准则概率接受,若接受,则令Ci=C′i;
10)遍历当前种群所有个体,得到下一代种群,令g=g+1;判断种群进化第一阶段是否结束,若g>G2,则执行下一步;否则返回步骤8);
11)利用聚类工具SPICKER对Metropolis准则接受的所有过程点聚类,以最大类的类心构象为最终预测结果。