1.一种采用改进的HITS算法识别关键蛋白质的方法,其特征在于,包括以下步骤:
1)将蛋白质相互作用网络转化为双向有向图
将蛋白质相互作用网络转化为一个双向有向图G=(V,E),其中,V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;
2)对蛋白质相互作用网络的边的预处理
边的预处理包括计算边的聚集系数、边的基因表达相似性、边的功能相似性、边的可靠性;
3)网络拓扑加权边
根据步骤2)得到的边聚集系数得到网络拓扑加权边的权值wvu;
4)网络生物特性加权边
根据步骤2)得到的边的基因表达相似性、边的功能相似性、边的可靠性对边进行加权,得到生物信息加权边的权值wuv;
5)利用HITS算法得到结点权威值和中心值
利用HITS算法得到每个结点的权威值a(v)和中心值h(v),每个结点的权威值a(v)和中心值h(v)由式(7)、(8)计算得到:a(v)=∑q∈B(v)h(q) (7);
h(v)=∑q∈F(v)a(q) (8);
式中,B(v)代表指向蛋白质结点v的蛋白质集合,F(v)代表蛋白质结点v指向的蛋白质集合;
6)结点权威值和中心值归一化处理
对步骤5)得到的权威值a(v)和中心值h(v),进行归一化处理,得到标准权威值a’(v)和标准中心值h’(v);iter迭代加1;
每个结点的标准权威值a’(v)和标准中心值h’(v)由式(9)、(10)计算得到:式中,a(v)代表每个蛋白质结点v的权威值,由公式(7)得到;式中,h(v)代表每个蛋白质结点v的中心值,由公式(8)得到;
7)得到每个结点的综合得分
若iter的值小于等于次数maxiter,则转向步骤6);此时,根据每个结点当前的标准权威值a’(v)和标准中心值h’(v)得到综合得分Fin(v);
8)产生关键蛋白质
根据步骤7)得到的每个结点的综合得分Fin(v),对蛋白质进行排序;随着k个不同参数的变化,每个结点的排序也会有所变化,将所有的蛋白质的排序合并为一个关键蛋白质候选集Xi,统计候选集Xi中蛋白质出现的个数作为集成得分EM(v),若某个蛋白质的集成得分EM(v)大于设定阈值 则认为其为关键蛋白质。
2.根据权利要求1所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤2)中,边预处理具体包括:按式(1)计算边的聚集系数:
式中,Z(v,u)表示包含边(v,u)的三角形个数,di,dj分别是结点v和u的度;
按式(2)计算边的基因表达相似性:
式中,g(u,i)和g(v,i)分别代表蛋白质结点u和v在时间i时的表达水平, 和分别代表蛋白质结点u和v的平均表达水平;
按式(3)计算边的功能相似性:
式中,Sv(t)是与蛋白质结点v有关的GO术语k的S值,Su(t)是与蛋白质结点u有关的GO术语k的S值;
按式(4)计算边的可靠性:
式中,C代表边(u,v)在亚细胞位置中出现的次数,Cmax代表边(u,v)在亚细胞位置中出现的最大次数。
3.根据权利要求2所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤3)中,网络拓扑加权边的权值wvu由式(5)计算得到:wvu=ECC(v,u) (5);
式中,ECC是蛋白质结点v和蛋白质结点u之间的边聚集系数,由公式(1)得到。
4.根据权利要求2所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤4)中,生物信息加权边的权值wuv由式(6)计算得到:wuv=PCC(u,v)+GO_sim(u,v)+SL(u,v) (6);
式中,PCC是蛋白质结点v和蛋白质结点u之间的基因表达相似性,由公式(2)得到;GO_sim(u,v)是蛋白质结点v和蛋白质结点u之间的功能相似性,由公式(3)得到;SL(u,v)是蛋白质结点v和蛋白质结点u之间的可靠性,由公式(4)得到。
5.根据权利要求1所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤7)中,每个结点的综合得分Fin(v)由式(11)得到:Fin(v)=α*a′(v)+(1‑α)*h′(v) (11);
式中,α∈[0,1]用来调节拓扑特性和生物信息在识别关键蛋白之中的比例;a′(v),h′(v)分别由公式(9)和公式(10)得到。
6.根据权利要求5所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤8)中,每个结点的集成得分EM(v)由式(12)得到:式中,k代表式(11)中的参数α的取值个数;Xi代表关键蛋白质候选集合。