欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2017110393458
申请人: 陕西师范大学
专利类型:发明专利
专利状态:已下证
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.采用改进花授粉算法识别关键蛋白质的方法,其特征在于,包括以下步骤:(1)将蛋白质相互作用网络转化为无向图

将蛋白质相互作用网络转化成一个无向图G=(V,E),其中,V={vi,i=1,2,…,n}为结点vi的集合,E为边e的集合,结点vi表示蛋白质,边e表示蛋白质之间的相互作用,wij表示结点vi与结点vj之间的连接情况,若结点vi与结点vj相连,则wij=1,若vi与vj之间没有边,则wij=0,i=1,2,Λ,n,j=1,2,Λ,n;

(2)选取度最大的前Q个蛋白质作为花粉个体

结点的度DC即与该结点直接相连的邻居结点的个数,计算所有结点的度并按降序排序,选取前Q个作为初始的花粉个体,按式(1)计算结点i的度:DC(i)=∑iedge(i,v)  式(1)

式中,结点v表示与结点i直接相连的结点;

(3)度量PeC中心性

计算边聚集系数:边聚集系数ECC刻画了边(i,j)的两个结点i和j的亲疏程度,按式(2)计算边(i,j)的边聚集系数:式中,Ni和Nj分别表示结点i和结点j的邻居结点的集合,di和dj分别表示结点i和结点j的度,ECC的取值越大,表明结点i和j属于同一个簇的可能性越大;

计算蛋白质间的皮尔逊相关系数:基因表达数据用来表示蛋白质生命运动的过程,利用皮尔逊相关系数PCC计算相互作用的蛋白质的基因共表达的强弱程度,按式(3)计算皮尔逊相关系数:式中,xi,yi表示蛋白质vx,vy在时间点t时的基因表达值,μ(x),μ(y)是蛋白质vx,vy的平均基因表达值,T为时间点的最大值;

(4)确定复合物信息

出现在蛋白质复合物中的蛋白质更可能是关键蛋白质,整合两个蛋白质复合物数据集CM270和CM425,去除重复的复合物,得到一个复合物数据集;判断一个蛋白质结点出现在几个复合物中即为此蛋白质结点的复合物得分pc,如果一个蛋白质不属于任何一个已知的蛋白质复合物,则其复合物得分pc为0,如果一个蛋白质存在于已知的蛋白质复合物中,则其复合物得分pc为相应存在于已知蛋白质复合物中的次数;

(5)确定亚细胞定位信息

亚细胞定位指细胞中某种蛋白质出现的具体位置,关键蛋白质在某些亚细胞位置出现的较多;对从亚细胞定位数据库中下载的亚细胞定位数据进行预处理,去除重复的数据,得到所需的包含11个亚细胞位置的数据;把预处理得到的11个位置的亚细胞定位数据集R与关键蛋白质标准数据集进行比对得到他们的关系数据集S,则相应的每一个具体位置的关系数据集为Sr,如果给定一个蛋白质,它出现在数据集R中,则11个亚细胞位置中的每一个具体位置出现的频率Sr/length(S)即为每个位置对应的得分Fi(r);按式(4)计算此蛋白质的亚细胞定位得分:SL(i)=∑C(i)Fi(r)  式(4)

式中,C(i)表示蛋白质i在数据集R中所对应的亚细胞位置集合,一个蛋白质可能在多个亚细胞位置中的出现;

(6)评价花粉重要性

首先,关键蛋白质大多出现在同一簇中且倾向于共表达,pc(i,j)利用边聚集系数ECC和皮尔逊相关系数PCC分别刻画边(i,j)的结点i和j在网络中的拓扑特性和基因共表达对于蛋白质关键性的影响,pc(i,j)为边(i,j)出现在同一簇中的概率,将pc(i,j)看作边(i,j)的权值,则对于一个蛋白质结点i,计算结点i的连接边的权值之和PeC(i);

然后,结合蛋白质复合物得分和亚细胞定位得分;

最后,计算出每一个蛋白质结点的得分,即得到每一个蛋白质结点的重要程度,且一个花粉由Q个蛋白质结点组成,进而对花粉个体的重要性GSC进行评价;

(7)更新花粉位置

在全局授粉中,花粉不仅向全局最优解移动,而且自身在全局范围内随机搜索,更新花粉在全局授粉中的位置;

在局部授粉中,花粉的位置保持不变,更新花粉在局部授粉中的位置;

(8)输出识别的关键蛋白质

花粉经过全局授粉和局部授粉找到当前最优解之后,若迭代次数小于最大迭代次数Maxiter,转向步骤(7);否则,花粉输出全局最优解,即一个候选关键蛋白质集合得到关键蛋白质。

2.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法,其特征在于:所述步骤(6)中边(i,j)出现在同一簇中的概率pc(i,j)由式(5)得到:pc(i,j)=ECC(i,j)×PCC(i,j)  式(5)式中,ECC是结点i和结点j之间的边(i,j)的聚集系数由公式(2)得到,PCC是结点i和结点j之间的边的皮尔森聚集系数由公式(3)得到。

3.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法,其特征在于:所述步骤(6)中结点i的连接边的权值之和PeC(i)由式(6)得到:式中,ni表示结点i的邻居结点的集合。

4.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法,其特征在于:所述步骤(6)中的花粉的重要性GSC由式(7)得到:式中,α为一个在[0,1]之间的常数,H={h1,h2,…hQ}表示一个候选关键蛋白质集合,其中每一个元素hi代表一个候选关键蛋白质。

5.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法,其特征在于:所述步骤(7)中的花粉按全局授粉更新的位置 由式(8)得到:式中,t是迭代次数,cat函数表示连接由 和RANDOM得到的位置向量,dim的值为1表示两个由 和RANDOM得到的位置向量按列连接,intersect函数表示 中的元素和Gbest中的某些元素进行交集运算,Gbest是全局最优解, 表示花粉不断向全局最优靠近,RANDOM则表示花粉进行全局范围内的搜索, 和RANDOM一起构成花粉经过全局授粉后得到的新位置。

6.如权利要求1所述的采用改进花授粉算法识别关键蛋白质的方法,其特征在于:所述步骤(7)中的花粉按局部授粉更新的位置 由式(9)得到:式中,t表示迭代次数。