欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020110301570
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于迭代搜索策略的蛋白质溶剂可及性预测方法,其特征在于,所述预测方法包括以下步骤:

1)输入蛋白质残基个数为L的待进行溶剂可及性预测的蛋白质序列信息,记作S;

2)对给定的蛋白质序列S,使用HHBlits工具生成对应的多序列联配信息,记作其中 表示MSA中的第n条序列联配信息,N为MSA中的序列联配信息总数目,每条序列联配信息均含有L个元素,每个元素均属于元素集合R={R1,…,Rr,…,R21},集合R是由二十种常见氨基酸和补位空格元素组成的;

3)对给定的多序列联配信息MSA,生成对应的位置特异性频率矩阵,记作其中 表示 中的第l个元素,当 与Rr为相同元素类型时, 否则

4)对任意两条蛋白质序列SX与SY,给定它们的多序列联配信息MSAX与MSAY,使用如下步骤计算它们之间的相似度sim(SX,SY),并获得它们的序列比对信息ali,过程如下:

4.1)根据MSAX与MSAY,使用步骤3)获得SX与SY对应的位置特异性频率矩阵与

4.2)构造相似度矩阵 其中

4.3)根据相似度矩阵XY,使用Needleman-Wunsch动态规划算法获得SX与SY的序列比对信息ali,并计算SX与SY的 其中,当ali(lX)≠-1时,ali(lX)为SY中与SX的第lX个残基比对上的残基索引值且 否则,ali(lX)表示与SX的第lX个残基比对上是补位空格元素且

5)对PDB库中的每条蛋白质 使用步骤2)生成对应的多序列联配信息 组成多序列联配信息集合,记作 其中I表示PDB库中蛋白质序列的总数目;

6)根据输入序列S的多序列联配信息MSA与步骤5)中生成的 集合,使用步骤4)计算MSA与 集合中每个元素的相似度,并获取相似度最高的M个元素对应的PDB数据库中的蛋白质序列及序列比对信息,组成一个新的多序列联配信息MSAnew用于更新替换输入序列S的原始MSA,然后再执行步骤6),上述迭代过程直至输入序列S的MSA信息收敛时终止;

7)对步骤6)获得的MSA中含有的每条PDB数据库蛋白质 根据对应的三维结构信息,使用DSSP工具计算对应的溶剂可及性信息,组成溶剂可及性信息集合,记作其中 为 对应的溶剂可及性信息, 表示 中第l个残基的溶剂可及性信息;

8)根据步骤7)获得的 输入蛋白质序列S的溶剂可及性信息被预测为其中 为S中第l个残基的溶剂可及性信息,当alim(l)≠-1时,alim(l)为MSA中第m条序列中与S的第l个残基比对上的残基索引值且 否则,alim(l)表示与S的第l个残基比对上是补位空格元素且