欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018111456162
申请人: 江西理工大学
专利类型:发明专利
专利状态:已下证
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于动态加权蛋白质相互作用网络的蛋白质复合物挖掘方法,其特征在于,包括以下步骤:构建动态加权蛋白质相互作用网络:输入蛋白质相互作用数据、基因表达谱数据和基因本体信息,将蛋白质相互作用网络数据进行去重操作,利用所述基因表达谱数据过滤不具有活性的蛋白质,从而构建动态蛋白质相互作用网络,再利用综合权值度量为所述动态蛋白质相互作用网络加权并添加新的相互作用,进而构建所述动态加权蛋白质相互作用网络;

构建蛋白质复合核:输入各个时刻的动态加权蛋白质相互作用网络和关键蛋白质集合,采用点边聚集系数优化种子节点的选取,利用蛋白质的关键性和复合物的内在属性来构建蛋白质复合核;

蚁群聚类:采用模糊粒度的相似度函数改进蚁群算法的拾起规则,不断装载蛋白质结点形成初始的聚类结果,利用紧密度优化放下规则,对初始聚类结果进行修正,进而实现蛋白质复合物的挖掘;其中,蚁群算法的拾起规则为,蚂蚁随机选择一个复合核并初始化一个簇,搜索可视范围的结点,如果模糊粒度相似度大于初始粒度P,则拾起该结点并前进到其所在位置,当蚂蚁遍历完当前复合核邻域内所有满足条件的结点或者达到最大装载量时,蚂蚁随机选择下一个复合核开始下一轮搜索,重复上述过程,直到所有复合核均被蚂蚁遍历完,得到初始聚类结果;利用紧密度优化放下规则对初始聚类结果进行修正,舍弃一些外部连接紧密,内部连接松散的结点,进而实现蛋白质复合物的挖掘;

全局和局部权值更新:利用局部权值更新策略来实现不同代蚁群之间的最优解信息的传递,采用全局权值更新策略实现相邻时刻所述动态加权蛋白质相互作用网络之间的功能信息传递;以及输出结果:输出挖掘出的蛋白质复合物。

2.根据权利要求1所述的方法,其特征在于,构建动态加权蛋白质相互作用网络的步骤包括:通过下式1将所述基因表达谱数据的36个时刻合并为12个时刻:其中,Tu(i)表示蛋白质u在i时刻下的基因表达值,1≤i≤12;

根据下式2将不共表达的蛋白质进行过滤:

其中,T'u表示蛋白质u的平均基因表达值;

为每个动态子网络添加相互作用:假设蛋白质u,v在静态蛋白质相互作用网络上存在相互作用且共表达,则在该时刻网络中添加一组相互作用;假设蛋白质u,v在静态蛋白质相互作用网络上不存在相互作用但共表达,则通过下式3来判断是否添加相互作用:其中,CWM(u,v)表示蛋白质u,v的综合权值度量,CEcc(u,v)表示点边聚集系数,FS(u,v)表示基因本体功能相似性,Pcc(u,v)表示皮尔逊相关系数;

当CWM(u,v)大于0,则添加一组相互作用,否则不添加;

根据上式3,采用综合权值度量对12个动态子网络进行加权,进而获得动态加权蛋白质相互作用网络。

3.根据权利要求2所述的方法,其特征在于,

所述点边聚集系数CEcc(u,v)用下式4计算:

其中,tanu,v表示网络结点u,v共同构成的三角形的个数,du,dv分别表示网络结点u,v的度,Cu,Cv分别表示网络结点u,v的点聚集系数;

所述基因本体功能相似性FS(u,v)用下式5计算:

其中,|fu∩fv|表示蛋白质u和v共同的基因本体术语数目,|fu|,|fv|分别表示蛋白质u和v的基因本体术语数目;

所述皮尔逊相关系数Pcc(u,v)用下式6计算:

其中,k为样本数,i为在基因表达数据中的时刻数,Exp(u,i),Exp(v,i)分别表示蛋白质u和v在i时刻下的表达值, 和σ(u),σ(v)分别表示蛋白质u和v在所有时刻下的平均表达值和标准方差,Pcc(u,v)∈[-1,1]。

4.根据权利要求1所述的方法,其特征在于,构建蛋白质复合核的步骤包括:B1计算每个所述关键蛋白质的结点的所有关联边的点边聚集系数之和SoCEcc,并按降序排列放入有序队列Q1;

B2从队列Q1中取点边聚集系数之和最大的关键蛋白质结点初始化一个复合核C,将满足相互作用阈值η并且连续共表达次数大于等于m的直接邻居结点加入复合核C;

B3判断所述复合核C是否满足密度阈值d,若不满足,则递归删除SoCEcc值小的结点直至所述复合核C满足密度阈值d;

B4当所述复合核C满足密度阈值d,则将复合核C存入结果队列Q2中,从有序队列Q1中删除所述复合核C中的全部结点;

B5重复步骤B2、B3和B4,直到有序队列Q1为空。

5.根据权利要求4所述的方法,其特征在于,所述关键蛋白质的结点的所有关联边的点边聚集系数之和SoCEcc通过下式7计算:其中,SoCEcc(u)表示关键蛋白质结点u的所有关联边的点边聚集系数之和。

6.根据权利要求4所述的方法,其特征在于,蚁群聚类的步骤包括:C1在结果队列Q2中随机选择一个复合核C作为蚂蚁的初始位置;

C2计算蚂蚁邻域范围内结点u的模糊粒度,将满足条件的邻居结点拾起,并前进到所述邻居结点,更新复合核和蚂蚁邻域范围;若没有满足条件的邻居结点,则跳过步骤C3直接进入步骤C4;

C3判断蚂蚁装载量是否达到最大,若未达到最大装载量,则重复步骤C2,继续对蚂蚁的新邻域范围内的结点进行聚类,若达到最大装载量,则进行步骤C4;

C4得到所述复合核C对应的初始聚类结果,从结果队列Q2中删除复合核C,判断结果队列Q2是否为空,若不为空,则随机选择一个复合核作为蚂蚁的初始位置,并返回步骤C2开始新一轮搜索;若结果队列Q2为空,则进入步骤C5;

C5计算结点u与复合物PC的紧密度,将紧密度小于1的结点舍去,得到复合物PC,输出复合物集合CS。

7.根据权利要求6所述的方法,其特征在于,

所述模糊粒度通过下式8计算:

其中,CMW(u,v)表示蛋白质u,v的综合权值度量,εA(u)表示蚂蚁邻域范围内结点u的模糊粒度,|C|为复合核C内的结点数,α为相异度因子;

所述紧密度通过下式9计算:

其中,CD(u,PC)表示结点u与复合物PC的紧密度,din(u,v1)表示蛋白质u与复合物PC内其他蛋白质v1连接边的权值,dout(u,v2)表示蛋白质u与复合物PC外其他蛋白质v2连接边的权值。

8.根据权利要求1或7所述的方法,其特征在于,

根据下式10进行局部权值更新:

CWM(u,v)=(1+PCuv)CWM(u,v)           式10其中,CMW(u,v)表示蛋白质u,v的综合权值度量,PCuv表示在上次迭代的最优解中蛋白质u,v共享复合物的概率,以此作为一种增强系数。

9.根据权利要求8所述的方法,其特征在于,

所述增强系数PCuv通过下式11计算:

其中,Cu,Cv分别为蛋白质u,v所属复合物的集合,Cu∩Cv表示同时包含蛋白质u,v的复合物集合。

10.根据权利要求1所述的方法,其特征在于,

根据下式12进行全局权值更新:

其中,CMW(u,v)表示蛋白质u,v的综合权值度量, 和 分别表示在Ti-1和Ti时刻瞬时网络的最优解中蛋白质u和v出现在同一复合物中的次数,0≤α<β≤1, 和β为常数。

11.根据权利要求8所述的方法,其特征在于,

根据下式12进行全局权值更新:

其中,CMW(u,v)表示蛋白质u,v的综合权值度量, 和 分别表示在Ti-1和Ti时刻瞬时网络的最优解中蛋白质u和v出现在同一复合物中的次数,0≤α<β≤1,和β为常数。