1.基于人工鱼群优化算法识别关键蛋白质的方法,其特征在于:包括以下步骤:(1)将蛋白质相互作用网络转化为无向图:将蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={vi,i=1,2,…,n}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用;
(2)构建提纯的蛋白质相互作用网络:在时间点t时,结点vi的基因表达值Epit若大于基因表达活性阈值Active_Th(i),则认为结点vi在时间点t具有活性,否则认为该结点在时间点t不具有活性;若V中任意两个不同的结点v,u在时间点t同时具有活性,则认为在时间点t下结点v,u共表达;将无向图中在所有时间点下都没有共表达的蛋白质相互作用所对应的边删去,构建一个提纯的蛋白质相互作用网络;
(3)对提纯的蛋白质相互作用网络的边和结点进行处理:计算边的聚集系数ECC、边的皮尔森相关系数PCC、边的GO功能相似性以及结点在蛋白质复合物内部的度;
步骤(3)中,按式(2)计算边的聚集系数:式中,Ni,Nj分别表示结点vi,vj的邻居结点集;
按式(3)计算边的皮尔森相关系数:
式中,Epit和Epjt分别表示结点vi,和vj在时间点t时的基因表达值,μ(i)和μ(j)是结点vi和vj的平均基因表达值,T为时间点的最大值;
按式(4)计算边的GO功能相似性:
式中,GOi,GOj分别表示注释结点vi和结点vj的GO术语;
按式(5)计算结点vi在蛋白质复合物内部的度:式中,V(|C|)表示包含在蛋白质复合物中的结点集合,Cvi表示包含结点vi的蛋白质复合物,Din(vi,Cvi)表示结点vi在蛋白质复合物Cvi中的度,vj是vi的邻居结点;
(4)选取已知关键蛋白质组成初始人工鱼:令N为人工鱼种群规模,m为每条人工鱼中包含的已知关键蛋白质的数量;在目前已知的关键蛋白质中随机选取m个已知关键蛋白质组成一条先验知识的人工鱼;Fish(k)表示第k条初始人工鱼中包含的已知关键蛋白质集合,k=1,2…N;Cn为候选关键蛋白质的个数;
(5)觅食行为:
找出每条人工鱼中蛋白质的所有邻居蛋白质,构成邻居蛋白质结点集合Neighbor(k),并且集合Neighbor(k)与集合Neighbor(l)中的蛋白质互不相同,k=1,2…N,l=1,2…N,k≠l;对于Neighbor(k)中的每个结点vi按照公式score1(i)=fitness1(vi,Fish(k))确定合并到人工鱼Fish(k)中的可能性,将邻居蛋白质结点集合Neighbor(k)中的结点按照其score1得分进行降序排序,将score1的值最高的蛋白质结点添加到Fish(k)中,同时添加到集合Add(k)中;觅食行为重复执行Tn次,向初始人工鱼中添加Tn个蛋白质结点;
步骤(5)中集合Neighbor(k)中结点vi添加到人工鱼Fish(k)中的可能性fiitness1由式(6)得到:
式中vj是人工鱼Fish(k)里面的蛋白质结点,ECC是结点vi与结点vj之间的边的聚集系数,PCC是结点vi与结点vj之间的边的皮尔森相关系数,GO_sim是结点vi与结点vj之间的功能相似性;
(6)追尾行为:
觅食行为执行之后,对每条人工鱼按照公式Score2(k)=fitness2(Add(k))确定处于最优状态的人工鱼,对所有人工鱼按照其Score2得分进行降序排序,Score2的值最高的人工鱼即为最优人工鱼Fish(p),p∈[1,N],把对应于最优人工鱼Fish(p)的集合Add(p)中的蛋白质结点添加到集合Candidate中;
步骤(6)中确定人工鱼处于最优状态的可能性fitness2由式(7)得到:式中,Add(k)表示第k条人工鱼经过Tn次觅食行为所添加的蛋白质结点集合;
(7)聚群行为:
除最优人工鱼Fish(p)对应的集合Add(p)外,将其余人工鱼Fish(k)对应的集合Add(k)中的结点vi按照公式Score3(i)=fitness3(vi)计算得分,其中k≠p;对所有vi按照其Score3得分进行降序排序,令δ为拥挤度因子,选择排在前面的δ个蛋白质结点添加到集合Candidate中;
步骤(7)中确定集合Add(k),k≠p中结点vi的得分fitness3由式(8)得到:W(vi,vj)=ECC(vi,vj)×(PCC(vi,vj)+GO_sim(vi,vj)) 式(9)式(8)中,a,b是系数,满足a+b=1,Nei(vi)表示结点vi的邻居结点集合,DIC(vi)表示结点vi在蛋白质复合物内部的度;
(8)产生关键蛋白质:
将步骤(7)所得的集合Candidate中的蛋白质结点作为关键蛋白质输出。
2.如权利要求1所述的基于人工鱼群优化算法识别关键蛋白质的方法,其特征在于:基因表达阈值Active_Th(i)由式(1)得到:Active_Th(i)=μ(i)+3σ(i)(1‑F(i)) 式(1)2
式(1)中μ(i)是结点vi平均基因表达值,σ(i)是基因表达值的标准差;F(i)=1/(1+σ)是权函数。
3.如权利要求1所述的基于人工鱼群优化算法识别关键蛋白质的方法,其特征在于:步骤(5)中,如果在觅食行为执行过程中没有合适的蛋白质结点添加到人工鱼中,则执行随机行为,随机选择一个蛋白质结点添加到邻居蛋白质结点集合Neighbor(k)中。
4.如权利要求1所述的基于人工鱼群优化算法识别关键蛋白质的方法,其特征在于:步骤(7)中δ=Cn‑Tn。