1.一种基于信息熵的蛋白质结构从头预测方法,其特征在于:所述预测方法包括以下步骤:
1)给定输入序列信息,以及蛋白质力场模型,即能量函数Rosetta Score3;
2)初始化:由输入序列产生一系列轨迹数据,即具有时序性的一系列蛋白质构象,记为C={C1,C2,...,Ci,...,Cn},i∈{1,2,…,n},其中,Ci表示当前从头预测方法搜索轨迹n个构象中具有时序关系的第i个构象,并初始化迭代次数G=0;
3)计算轨迹构象集合C中所有构象两两之间的均方根偏差RMSD值,构建如式(1)所示的RMSD距离矩阵D;
其中,dij为轨迹构象中第i个构象和第j个构象之间的RMSD值,另外,可将距离矩阵D中的行数据视为对应构象的距离信息;
4)采用k-mediods方法对轨迹构象进行聚类,过程如下:
4.1)随机选取k个构象作为聚类的中心点M,即选择距离矩阵D中的k行数据作为聚类中心点,记为M={M1,...,Mk|Mk={dk1,...,dkn}};
4.2)查询距离矩阵D,确定每个轨迹构象与第i个中心点Mi的RMSD值最小,为轨迹构象添加标签tag_i,表示该轨迹构象聚类至第i类;
4.3)查询距离矩阵D,确定轨迹构象中与各构象RMSD值最小的构象,作为第i类中新的中心点Mi;
4.4)若新旧中心点一致,则聚类终止,否则,返回4.2);
5)对轨迹构象构建Markov模型,过程如下:
5.1)依据轨迹构象的时序关系,统计第i类中转移至第j类的轨迹构象数,记为zij;
5.2)根据概率计算公式,即 统计轨迹构象在k个类之间的转移概率,构建如式(2)所示的转移矩阵T:其中,tij为轨迹构象从第i类转移至第j类的转移概率;
6)计算信息熵,过程如下:
6.1)如式(3)所示,计算概率pij:
其中tij为轨迹构象从第i类转移至第j类的转移概率,Ntrans为总的转移概率;
6.2)如式(4)所示,计算信息熵E:
7)当前从头预测方法继续生成构象,根据如下操作决定新生成的构象Ctrial是否替换其前一个构象Ctarget,过程如下:
7.1)当前信息熵为E(Ctarget),将Ctrial计入轨迹构象集合C中,更新信息熵,记为E(Ctrial);
7.2)如果E(Ctrial)>E(Ctarget),则构象Ctarget保持不变,当前从头预测方法进行下一次构象搜索;
7.3)如果E(Ctrial)>E(Ctarget),则新构象Ctrial替换前一个构象Ctarget;
8)判断是否满足终止条件,若满足则输出结果并退出,否则返回步骤3)。
2.如权利要求1所述的一种基于信息熵的蛋白质结构从头预测方法,其特征在于:所述步骤2)中,设置最大迭代次数Gmax,所述步骤8)中,对种群中的每一个个体都执行完步骤
3)—7)以后,迭代次数G=G+1,终止条件为迭代次数G达到预设最大迭代次数Gmax。