1.一种基于树结构副本交换和片段组装的蛋白质结构预测方法,其特征在于:所述预测方法包括以下步骤:A1、蛋白质构象处理,过程如下:
STEP1.1、根据获得的蛋白质氨基酸序列使用Rosetta套装软件pose_from_sequence函数构建蛋白质长链;
STEP1.2、并 将 获 取 的 蛋 白 质 长 链 使 用Rosetta 构 建 的 Mover对 象SwitchResidueTypeSetMover,使用其apply方法将构建的蛋白质长链的全原子构象转换成骨链原子构象,该蛋白质构象用pose表示;
STEP1.3、将上述转换完成pose使用随机数分别给定每个氨基酸位置的(α,β,ω);
STEP1.4、将上述的STEP1.1、STEP1.2、STEP1.3步骤执行n次,n是副本总数;
A2、片段库构建,过程如下:
STEP2.1、将蛋白质的序列提交到提供根据特定序列产生片段库的服务器网站,服务器处理完成之后返回特定的片段库文件;
STEP2.2、使用Rosetta软件套装构建的Mover对象ClassicFragmentMover,根据获得的片段库文件构建此对象;
A3、温度参数KT列表设置,过程如下:
STEP3.1、根据副本数目,设定相同数目的KT列表的大小;
STEP3.2、使用Rosetta提供的score3力场模型构建能量函数scorefxn;
STEP3.3、根据KT列表和pose对象以及scorefxn实例化Rosetta软件套装提供的MonteCarlo对象,组成一个列表mc,其大小和KT列表相同;
A4、蛋白质构象的能量计算,过程如下:
STEP4.1、采用上述的scorefxn计算pose对象得到能量值;
STEP4.2、根据上述求得的能量值进行分层处理,具体是根据蛋白质的能量分布,进行层处理,本程序按照两个能量单位一层进行处理,根据能量值得到本pose对象所处的能量空间的位置;
A5、蛋白质形状特征提取,过程如下:
STEP5.1、首先传入蛋白质对象;
STEP5.2、从上述对象里面提取出来各个采样点的坐标,所述坐标是三维的笛卡尔坐标,假定采样点的坐标共有n个;
STEP5.3、由公式(1)求得上述对象的质心坐标,即几何中心坐标centroid(x,y,z);
STEP5.4、由公式(2)迭代求得离上述对象的质心坐标centroid(x,y,z)最远的采样点坐标farest(x,y,z);
STEP5.5、由公式(2)迭代求得离上述对象的质心坐标centroid(x,y,z)最远的采样点坐标farest_farest(x,y,z);
STEP5.6、分别由公式(3)迭代求得各个采样点与centroid(x,y,z)的平均距离CentroidAverage;
STEP5.7、分别由公式(4)迭代求得各个采样点与farest(x,y,z)的平均距离FarestAverageSTEP5.8、分别由公式(5)迭代求得各个采样点与farest_farest(x,y,z)的平均距离FarestFarestAverageSTEP5.9、将上述STEP5.6、5.7和5.8步骤之中获得的每个分量组成一个三维向量(6),这个三维向量就代表了当前这个对象的特征向量;
q
FeatureVector =(CentroidAverage,FarestAverage,FarestFarestAverage) (6)STEP5.10、将上述的三维向量中的每一维按照tick大小取定维度形成一个小的格子,这个格子代表了本蛋白质对象在形状空间上所处的位置;
A6、根据上述求得的能量层位置和形状空间位置存储初始构象对象,将构象存储到树结构的特定位置采用同样的方法构建n个此种类型的树结构;
A7、蛋白质的构象的扰动;
A8、将内存中的蛋白质构象的信息用文件的形式保存到电脑磁盘,并将相应的数据用散点图的形式输出,并输出最好的蛋白质构象。
2.如权利要求1所述的基于树结构副本交换和片段组装的蛋白质结构预测方法,其特征在于:所述步骤A7中,过程如下:STEP7.1、根据树结构中存储的蛋白质构象,选定能量水平,根据树数据结构中已有的蛋白质构象动态创建能量水平的列表,使用相应权重函数确定的概率选定能量层级层,并对此求得的概率取反,从而达到低能量层的构象被选中的概率大;
STEP7.2、根据树结构中特定能量水平存储的蛋白质构象,选定形状空间的位置,根据树数据结构中已有的蛋白质构象动态创建形状空间的列表,根据相应的权重函数确定的概率选定形状空间;
STEP7.3、根据树结构中特定能量水平和特定形状空间格子中的蛋白质构象,选定特定的蛋白质构象;在格子中选定蛋白质构象采用均匀概率分布;
STEP7.4、将选定的蛋白质构象从树数据结构中取出,使用上述构建的片段库扰动对象ClassicFragmentMover的apply方法进行扰动处理;
STEP7.5、根据特定的mc列表中特定索引位置的MonteCarlo对象进行评判是否接受扰动之后的蛋白质构象;
STEP7.6、若接受则将新产生的蛋白质构象重新确定能两层的位置以及形状空间的位置,将新产生的蛋白质构象放入对应的数数据结构;若不接受则丢弃,返回到扰动前的蛋白质构象;
STEP7.7、重复STEP7.1-STEP7.6完成n个树数据结构的第一次迭代;
STEP7.8、副本交换,将上述迭代一次之后的相邻的树数据结构之间进行副本交换,过程是KT参数次高赋予最高的,次次高赋予次高,以此类推;
STEP7.9、重复STEP7.1-STEP7.8,直到完成特定数目的迭代。