欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018114811611
申请人: 陕西师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种采用改进的HITS算法识别关键蛋白质的方法,其特征在于,包括以下步骤:

1)将蛋白质相互作用网络转化为双向有向图

将蛋白质相互作用网络转化为一个双向有向图G=(V,E),其中,V={v1,v2,…,vi,…,vn}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,n表示蛋白质结点的个数;

2)对蛋白质相互作用网络的边的预处理

边的预处理包括计算边的聚集系数、边的基因表达相似性、边的功能相似性、边的可靠性;

3)网络拓扑加权边

根据步骤2)得到的边聚集系数得到网络拓扑加权边的权值wvu;

4)网络生物特性加权边

根据步骤2)得到的边的基因表达相似性、边的功能相似性、边的可靠性对边进行加权,得到生物信息加权边的权值wuv;

5)利用HITS算法得到结点权威值和中心值

利用HITS算法得到每个结点的权威值a(v)和中心值h(v),每个结点的权威值a(v)和中心值h(v)由式(7)、(8)计算得到:a(v)=∑q∈B(v)h(q)     (7);

h(v)=∑q∈F(v)a(q)      (8);

式中,B(v)代表指向蛋白质结点v的蛋白质集合,F(v)代表蛋白质结点v指向的蛋白质集合;

6)结点权威值和中心值归一化处理

对步骤5)得到的权威值a(v)和中心值h(v),进行归一化处理,得到标准权威值a’(v)和标准中心值h’(v);iter迭代加1;

每个结点的标准权威值a’(v)和标准中心值h’(v)由式(9)、(10)计算得到:式中,a(v)代表每个蛋白质结点v的权威值,由公式(7)得到;式中,h(v)代表每个蛋白质结点v的中心值,由公式(8)得到;

7)得到每个结点的综合得分

若iter的值小于等于次数maxiter,则转向步骤6);此时,根据每个结点当前的标准权威值a’(v)和标准中心值h’(v)得到综合得分Fin(v);

8)产生关键蛋白质

根据步骤7)得到的每个结点的综合得分Fin(v),对蛋白质进行排序;随着k个不同参数的变化,每个结点的排序也会有所变化,将所有的蛋白质的排序合并为一个关键蛋白质候选集Xi,统计候选集Xi中蛋白质出现的个数作为集成得分EM(v),若某个蛋白质的集成得分EM(v)大于设定阈值 则认为其为关键蛋白质。

2.根据权利要求1所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤2)中,边预处理具体包括:按式(1)计算边的聚集系数:

式中,Z(v,u)表示包含边(v,u)的三角形个数,di,dj分别是结点v和u的度;

按式(2)计算边的基因表达相似性:

式中,g(u,i)和g(v,i)分别代表蛋白质结点u和v在时间i时的表达水平, 和分别代表蛋白质结点u和v的平均表达水平;

按式(3)计算边的功能相似性:

式中,Sv(t)是与蛋白质结点v有关的GO术语k的S值,Su(t)是与蛋白质结点u有关的GO术语k的S值;

按式(4)计算边的可靠性:

式中,C代表边(u,v)在亚细胞位置中出现的次数,Cmax代表边(u,v)在亚细胞位置中出现的最大次数。

3.根据权利要求2所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤3)中,网络拓扑加权边的权值wvu由式(5)计算得到:wvu=ECC(v,u)  (5);

式中,ECC是蛋白质结点v和蛋白质结点u之间的边聚集系数,由公式(1)得到。

4.根据权利要求2所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤4)中,生物信息加权边的权值wuv由式(6)计算得到:wuv=PCC(u,v)+GO_sim(u,v)+SL(u,v) (6);

式中,PCC是蛋白质结点v和蛋白质结点u之间的基因表达相似性,由公式(2)得到;GO_sim(u,v)是蛋白质结点v和蛋白质结点u之间的功能相似性,由公式(3)得到;SL(u,v)是蛋白质结点v和蛋白质结点u之间的可靠性,由公式(4)得到。

5.根据权利要求1所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤7)中,每个结点的综合得分Fin(v)由式(11)得到:Fin(v)=α*a′(v)+(1‑α)*h′(v)    (11);

式中,α∈[0,1]用来调节拓扑特性和生物信息在识别关键蛋白之中的比例;a′(v),h′(v)分别由公式(9)和公式(10)得到。

6.根据权利要求5所述的采用改进的HITS算法识别关键蛋白质的方法,其特征在于,步骤8)中,每个结点的集成得分EM(v)由式(12)得到:式中,k代表式(11)中的参数α的取值个数;Xi代表关键蛋白质候选集合。