1.一种基于香农熵的多阶段蛋白质结构预测方法,其特征在于:所述蛋白质结构预测方法包括以下步骤:
1)给定输入序列信息,利用Robetta服务器获得该序列的片段库;
2)Markov状态模型的构建,过程如下:
2.1)获取nstruct个背景点:运行Rosetta Abinitio协议nstruct次,记录每次运行的构象结果,作为背景点;
2.2)计算nstruct个背景点之间的方均根差距离RMSD,组成距离矩阵D;
2.3)根据距离矩阵D,利用k‑mediods聚类方法对nstruct个背景点分类,得到m个簇心,作为m个Markov状态;
3)初始化:种群规模NP,当前阶段stage=1,香农熵阈值α,香农熵最大累计次数count_max,根据输入序列,执行Rosetta Abinitio的当前阶段NP次,产生初始构象种群P={C1,C2,...,CNP},其中CNP表示第NP个个体;
4)计算当前种群状态:对种群中个体Ci,i∈{1,...,NP}分类:计算Ci与m个簇心的RMSD距离,若Ci与第p个簇心距离最近,那么该个体当前状态statei=p,p∈{1,2,...,m},整个种群的状态表示为statelast={state1,state2,...,stateNP},statelast指上一代种群状态,stage=stage+1;
5)令香农熵的累计次数count=0,进入下一阶段,过程如下:
5.1)对种群执行对应阶段的预测过程,过程如下:
5.1.1)对个体Ci进行片段组装得到C′i,并使用该阶段的能量函数评价片段组装前后该构象的能量Estage(Ci)、E′stage(C′i);
5.1.2)若Estage(Ci)>E′stage(C′i),则接受本次片段组装,即Ci=C′i;否则,用Metropolis标准进行选择,计算p=exp(‑(Estage(Ci)‑Estage(C′i)),若p>rand(0,1),则接受本次片段组装Ci=C′i;否则,拒绝本次片段组装;
5.1.3)对所有个体执行步骤5.1.1)~5.1.2),得到下一代种群;
5.2)计算当前种群状态:对种群中个体Ci,i∈{1,2,...,NP}分类:计算Ci与m个簇心的RMSD距离,若Ci与第q,q∈{1,2,...,m}个簇心距离最近,那么该个体当前状态state′i=q,整个种群的状态表示为statenow={state′1,state′2,...,state′NP},statenow指当前种群状态;
5.3)根据上一代种群状态与当前种群状态统计得出Markov状态转移矩阵T:对构象Ci,i∈{1,...,NP}的前后两次状态statei=p和state′i=q表明一次从状态p到状态q的转移,则tpq=tpq+1/m,tpq为矩阵T第p行第q列的数值,表示该状态转移频率,其初始值为0;
5.4)根据状态转移矩阵T计算香农熵值Entropy=∑‑tpqlntpq;
5.5)更新当前状态statelast=statenow;
5.6)如果Entropy<α,则认为种群状态转移越确定,则count=count+1;
5.7)若count