1.一种基于迭代搜索策略的蛋白质溶剂可及性预测方法,其特征在于,所述预测方法包括以下步骤:
1)输入蛋白质残基个数为L的待进行溶剂可及性预测的蛋白质序列信息,记作S;
2)对给定的蛋白质序列S,使用HHBlits工具生成对应的多序列联配信息,记作其中 表示MSA中的第n条序列联配信息,N为MSA中的序列联配信息总数目,每条序列联配信息均含有L个元素,每个元素均属于元素集合R={R1,…,Rr,…,R21},集合R是由二十种常见氨基酸和补位空格元素组成的;
3)对给定的多序列联配信息MSA,生成对应的位置特异性频率矩阵,记作其中 表示 中的第l个元素,当 与Rr为相同元素类型时,否则
X Y X Y
4)对任意两条蛋白质序列S与S ,给定它们的多序列联配信息MSA与MSA ,使用如下步X Y
骤计算它们之间的相似度sim(S ,S),并获得它们的序列比对信息ali,过程如下:X Y X Y
4.1)根据MSA 与MSA ,使用步骤3)获得S 与S 对应的位置特异性频率矩阵与
4.2)构造相似度矩阵 其中X Y
4.3)根据相似度矩阵XY,使用Needleman‑Wunsch动态规划算法获得S与S 的序列比对X Y X X Y
信息ali,并计算S与S的 其中,当ali(l)≠‑1时,ali(l)为SX X X X
中与S的第l个残基比对上的残基索引值且 否则,ali(l)表示与S的X
第l个残基比对上是补位空格元素且
5)对PDB库中的每条蛋白质 使用步骤2)生成对应的多序列联配信息 组成多序列联配信息集合,记作 其中I表示PDB库中蛋白质序列的总数目;
6)根据输入序列S的多序列联配信息MSA与步骤5)中生成的 集合,使用步骤4)计算MSA与 集合中每个元素的相似度,并获取相似度最高的M个元素对应的PDB数据库new
中的蛋白质序列及序列比对信息,组成一个新的多序列联配信息MSA 用于更新替换输入序列S的原始MSA,然后再执行步骤6),上述迭代过程直至输入序列S的MSA信息收敛时终止;
7)对步骤6)获得的MSA中含有的每条PDB数据库蛋白质 根据对应的三维结构信息,使用DSSP工具计算对应的溶剂可及性信息,组成溶剂可及性信息集合,记作其中 为 对应的溶剂可及性信息, 表示 中第l个残基的溶剂可及性信息;
8)根据步骤7)获得的 输入蛋白质序列S的溶剂可及性信息被预测为m
其中 为S中第l个残基的溶剂可及性信息,当ali (l)≠‑1时,m
ali (l)为MSA中第m条序列中与S的第l个残基比对上的残基索引值且 否m
则,ali(l)表示与S的第l个残基比对上是补位空格元素且