欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018101120136
申请人: 陕西师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于布谷鸟搜索算法识别关键蛋白质的方法,其特征在于,包括以下步骤:

1)将蛋白质相互作用网络转化为无向图

将蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={vi,i=1,2,…,n}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用;

2)对蛋白质相互作用网络进行去噪处理

将无向图中在所有时间点下都没有共表达的两个相互作用的蛋白质结点之间的边删去,构建一个纯化的蛋白质相互作用网络;

3)对纯化后的蛋白质相互作用网络的边和结点进行处理

计算边的聚集系数ECC、边的皮尔森相关系数PCC、边的共享亚细胞定位值SSL以及蛋白质结点在蛋白质复合物中的参与度PC;

4)对所有的蛋白质结点按首次得分降序排列并产生鸟巢

将所有的蛋白质结点按照首次分值score1降序排序,选择排在前面的C1个结点为鸟巢的位置Nestl(l=1,2…C1);

5)产生布谷鸟并向鸟巢聚集

对于每个鸟巢Nestl(l=1,2…C1),找出其所对应的一阶邻居结点和二阶邻居结点作为布谷鸟,将所有的一阶邻居结点添加到集合Neighborl(1)中,对于每个二阶邻居结点,产生一个随机概率rand,rand∈[0,1],如果rand>0.5,则把该二阶邻居结点添加到集合Neighborl(2)中,否则,放弃添加该二阶邻居结点;

6)更新鸟巢适应值

将每个鸟巢Nestl(l=1,2…C1)对应的蛋白质结点,与其相应的一阶邻居Neighborl(1)和二阶邻居Neighborl(2),组成一个局部子图Subgraphl,局部子图的加权密度WDensityl为鸟巢Nestl新的适应值,也即为鸟巢Nestl对应的蛋白质结点的二次分值Score2;

7)输出关键蛋白质

将C1个鸟巢对应的蛋白质结点按二次分值Score2降序排序,将前C2个结点作为关键蛋白质输出,其中,C2≤C1。

2.根据权利要求1所述的基于布谷鸟搜索算法识别关键蛋白质的方法,其特征在于,步骤2)中,判断两个相互作用的蛋白质结点是否共表达,具体操作为:在时间点t时,结点vi的基因表达值Epit若大于该结点的基因表达活性阈值Active_Th(i),则认为结点vi在时间点t具有活性,否则认为该结点在时间点t不具有活性;若V中任意两个不同的结点v,u在时间点t同时具有活性,则认为在时间点t下结点v,u共表达。

3.根据权利要求2所述的基于布谷鸟搜索算法识别关键蛋白质的方法,其特征在于,结点vi的基因表达活性阈值Active_Th(i)由式(1)得到:Active_Th(i)=μ(i)+3σ(i)(1-F(i))   (1);

式中,μ(i)是蛋白质结点vi的平均基因表达值,σ(i)是蛋白质结点vi的基因表达值的标准差;F(i)=1/(1+σ2)是权函数。

4.根据权利要求1所述的基于布谷鸟搜索算法识别关键蛋白质的方法,其特征在于,步骤3)中,按式(2)计算边的聚集系数:式中,Ni,Nj分别表示结点vi,vj的邻居结点集;

按式(3)计算边的皮尔森相关系数:

式中,Epit和Epjt分别表示结点vi和vj在时间点t时的基因表达值,μ(i)和μ(j)是结点vi和vj的平均基因表达值,T为时间点的最大值;

按式(4)计算边的共享亚细胞定位值:

式中,SCk表示一种亚细胞位置,k=1,2…11,SLoc表示亚细胞位置集合,由式(5)得到;

IS(SCk)表示亚细胞位置SCk的重要性得分,由式(6)得到式中,SLoc(vi)和SLoc(vj)分别表示结点vi和vj所在的亚细胞位置集合;

式中,|SCk|表示亚细胞区域SCk中包含的蛋白质数目,|Max_SC|表示包含蛋白质数目最多的亚细胞区域中所包含的蛋白质数目;

按式(7)计算边E(vi,vj)的权值:

W(vi,vj)=ECC(vi,vj)+PCC(vi,vj)   (7);

按式(8)计算结点vi在蛋白质复合物中的参与度:

式中,V(|C|)表示包含在蛋白质复合物中的结点集合, 表示包含结点vi的蛋白质复合物, 表示结点vi在蛋白质复合物 中的加权度,结点vi的加权度SW(vi)由式(9)得到:式中,N(vi)表示结点vi的邻居结点集合。

5.根据权利要求1所述的基于布谷鸟搜索算法识别关键蛋白质的方法,其特征在于,步骤4)中,蛋白质结点的首次得分Score1由式(10)得到:Score1(vi)=α×NPC(vi)+(1-α)×NSW(vi)   (10);

式中,α是系数参数,α∈[0,1],NPC(vi)是结点vi的标准化的蛋白质复合物参与度值,由式(11)得到,NSW(vi)是结点vi的标准化的加权度值,由式(12)得到:式中,min(PC)是所有蛋白质结点中最小的蛋白质复合物参与度值,max(PC)是所有蛋白质结点中最大的蛋白质复合物参与度值;

式中,min(SW)是所有蛋白质结点中最小的加权度值,max(SW)是所有蛋白质结点中最大的加权度值。

6.根据权利要求1所述的基于布谷鸟搜索算法识别关键蛋白质的方法,其特征在于,步骤6)中,鸟巢Nestl对应的蛋白质结点,与其相应的一阶邻居Neighborl(1)和二阶邻居Neighborl(2),组成的局部子图Subgraphl的加权密度WDensityl,即鸟巢Nestl对应的蛋白质结点的二次分值Score2,由式(13)得到:式中,vi,vj是局部子图Subgraphl中的结点,|v|是Subgraphl中结点数目,SC(vi,vj)由式(14)得到,SG(vi,vj)由式(15)得到;

式中,Ci,Cj分别表示包含结点vi和vj的蛋白质复合物集合;

式中,Gi,Gj分别表示注释结点vi和vj的GO术语集合。