1.一种多模态蛋白质构象空间搜索方法,其特征是:在排挤差分进化算法的基础上综合了空间局部性原理、集结过程、能量极小化过程,对蛋白质构象进行优化处理,具体实现如下:
1)、确定优化目标,选取蛋白质构象能量函数E(x);
2)、设定差分进化算法各控制参数:种群大小P,变异因子F,交叉因子CR,种群迭代最大次数CG,并采用均匀分布函数随机法生成初始种群 ,其中N为优化问题的维数,P为种群大小;
3)、根据能量函数E(x)对初始种群进行能量极小化预处理,并按能量从小到大进行排序,选取种群前M个蛋白质构象作为种子个体;
4)、变异操作:对每个目标个体 (其中i、m表示第m个目标个体的第i维,i∈{1,2,……,N})做以下处理:
4.1)初始化:令G=1(G为迭代次数),i=1;
4.2)计算种群中非亲代 和亲代个体 的距离,其中m≠n∈{1,2,……,P},i∈N,并由大到小排序,再通过转换函数f(x)将距离转化为轮盘赌形式,其中转换函数f(x)形式为:其中d为非亲代 和亲代目标个体 的距离,SD等于 ,dMAX为距亲代 最远的距离;
4.3)首先选取距亲代最近的个体 作为变异的基准矢量,然后在轮盘中随机选取个体和 ,最后对 执行变异操作得到变异测试个体 ,变异过程可表示为:其中i表示目标个体 的第i维,且a≠b≠c∈{1,2,……,P},i∈N,F为变异因子;
5)、以不同的概率(X、Y、Z)选取相应的交叉策略对变异测试个体 执行交叉操作得到交叉测试个体 ;
6)、对所得的交叉测试个体 进行能量极小化处理得到测试个体 ;
7)、令i=i+1,若i<=N,继续循环执行步骤4)~7),否则循环结束;
8)、对所得的测试个体执行基本DE的选择操作,如果 ,则 替换亲代个体,否则保持种群不变;
9)、令G=G+1,若G
10)、根据阀值标准DIJ(两个构象解I和J的二面角距离)对算法所得的蛋白质构象解进行筛选,最终得到一系列高质量的蛋白质稳定构象,其中DIJ的表达式为:式中N为优化目标维数,θ为蛋白质构象的二面角解集,sym(k)取360º、180º、120º,表示蛋白质构象关于二面角k的对称重复结构;
11)、算法结束,输出实验所得的蛋白质稳定构象。
2.如权利要求1中所述的搜索方法,其特征在于:步骤5)所述的交叉操作,算法引入在交叉操作中引入了集结过程:为了保证种群的多样性,算法以不同的概率(X、Y、Z)(其中X、Y、Z为 (0,1)之间不同的随机数,且X+Y+Z=1)从下列三种不同的交叉策略选取一种执行交叉操作;
1)以概率X执行基本的DE交叉策略,其过程可表示为:
其中i表示目标个体 的第i维,i∈N,rand(i)为(0,1)之间的随机数,CR为交叉因子,rnbr(i)为(0,N)之间的随机整数,N为优化目标的维数;
2)以概率Y随机选取一个小组,并随机从M个种子中选取一个种子个体,将种子中和小组相对应的局部片段直接复制给测试个体 相对应的小组片段中,得到交叉测试个体 ;
3)以概率Z随机选取一个集合组,并随机从M个种子中选取一个种子个体,将种子中和集合组相对应的局部片段直接复制给测试个体 相对应的集合组片段中,得到交叉测试个体 。
3.如权利要求2中的所述的搜索方法,其特征在于:所述的小组和集合组是指:将蛋白质分为不同的片段,小组和集合组中的成员则分别对应蛋白质构象中的两种不同的片段,这些小组和集合组类似于集结过程中两种不同的片段;经过能量极小化过程处理的蛋白质构象具有低的能量,其局部片段也具有较低的能量,在交叉操作中算法直接继承这些局部低能量片段,防止蛋白质构象中这些局部低能量片段被算法破坏。