1.一种用于蛋白质结构预测的距离谱构建方法,其特征在于:所述构建方法包括以下步骤:
1)构建非冗余模板库:
1.1)从蛋白质数据库上下载分辨率小于 的精度较高的已知蛋白质序列;
1.2)将下载得到的蛋白质序列分裂成单链;
1.3)计算每条链相对于其他链的累计相似度total_identity:在公式(1)中,N为所有单链的总数,total_identityi为第i条链的累计相似度,identityij为第i条链与第j条链的相似度得分;
1.4)以1000条链为一个单位将所有链分成多个组,在每个组中根据累计相似度从大到小排列,从累计相似度大的开始依次与其他所有链进行比对,剔除相似度大于30%的链;
1.5)在所有组都比对完后,扩大分组中链的数量再进行相似度剔除,最终合成一个组;
1.6)根据保留下来氨基酸链的PDB名称从蛋白质数据库网站上下载相应的蛋白质结构,构成了非冗余的模板库;
2)生成片段库:
2.1)通过PSI-BLAST软件可以得到查询序列中每个残基相对于20个氨基酸的特征频率谱Pq和模板中残基相对于20个氨基酸的对数谱Lt;
2.2)通过PSSpred软件得到查询序列中残基的二级结构类型ssq和模板中残基的二级结构类型sst;
2.3)通过EDTSurf软件得到查询序列中残基的溶剂可达性saq和模板中残基的溶剂可达性sat;
2.4)通过ANGLOR软件得到查询序列中残基二面角 ψq和模板中残基的二面角 ψt;
2.5)计算模板片段相对于查询序列的相似度得分函数f(i,j):在公式(2)中,i为查询序列中的残基位置,j为模板中残基的位置,k为20个氨基酸的索引序号;w1,w2,w3,w4,w5为权重参数;
2.6)取得分高的前300个片段构成片段库;
3)构建距离谱:
3.1)选取查询序列第i个位置的残基和第j个位置的残基,j>i+5;
3.2)遍历i和j位置上的片段,选出来自于同个模板的片段;
3.3)计算这两个片段在模板构象上的距离dij;
3.4)若 以 为距离间隔进行计数统计;否,则返回3.2;
4)绘制残基对的距离谱图:
4.1)图的横坐标为来自于同个模板的片段间的距离dij,dij∈(dmin,dmax);
4.2)图的纵坐标为落入相应区间的片段对个数。