1.基于生物网络和亚细胞定位数据识别癌症驱动模块方法,其特征在于,包括如下步骤:
1)输入数据:输入体细胞突变数据矩阵Am×n,一个PPI网络P=(V,E)和亚细胞定位数据L=(L1,L2,...,L|V|);输入数据的格式和含义如下:体细胞突变数据矩阵Am×n中,行代表一组癌症样本S={si|i=1,2,...,m},列代表一组基因G={gj|j=1,2,...,n},矩阵内的每个格子aij(i=1,2,...,m,j=1,2,...,n)的值为1或0,aij的值表示基因gj是否在样本si中发生突变;PPI网络P=(V,E),对于网络中的每个顶点ui∈V代表一个基因gi在网络中相应的蛋白质,网络中的每个无向边(ui,uj)∈E表示基因gi和gj对应的蛋白质之间的相互作用;亚细胞定位数据L=(L1,L2,...,L|V|),其中Lj表示PPI网络P=(V,E)中基因gj(j=1,2,...,|V|)对应的亚细胞定位位点列表;
2)重建无向边缘加权PPI网络:对于PPI网络P=(V,E),使用步骤1)中的体细胞突变数据矩阵Am×n和亚细胞定位数据L=(L1,L2,...,L|V|)重建一个新的无向边缘加权PPI网络Pl=(Vl,El,Wl),重建过程为:先让Vl=V, 检查每个边缘eij∈E(eij=(gi,gj),gi,gj∈Vl),El由以下公式生成: 然后对于每个eij∈El(eij=(gi,gj),gi,gj∈Vl)计算Wl,Wl是eij的边权值,边权值为 该
边权值反映基因组 的覆盖率和相互排斥之间的关系,其中 表
示 的覆盖率, 表示 的互斥度;
3)识别驱动程序模块:根据步骤2)中构建的无向边缘加权PPI网络Pl=(Vl,El,Wl),将参数K,λ,N,mg,mt和步骤2)中构建的无向边缘加权PPI网络Pl=(Vl,El,Wl)输入到重新设计的单亲遗传算法中,输入算法中的参数的功能如下:参数K是控制输出的模块规模大小,参数λ是控制输出模块内基因的相互作用的强弱,参数N是设置单亲遗传算法生成的种群规模大小,参数mg是设置单亲遗传算法的最大迭代次数,参数mt是算法中提前跳出迭代的阈值;然后使用重新设计的单亲遗传算法来识别大小为K的驱动程序模块
4)初始化:首先根据个体的表示生成初始的种群,初始染色体X={x1,x2,...,xK|xi∈Vl}由如下生成:首先初始化X={x1},其中x1表示从集合Vl中随机选择的基因;然后在集合X和Vl\X之间搜索边缘集合δ(X),其中δ(X)={eij|eij∈El,xi∈X,xj∈Vl\X};最后随机选择三种更新X方法的任意一种去更新X,其中这三种方法分别为:(a)对与染色体中基因相连的基因进行检测,选择边权值最大的相连基因加入到染色体中,直到染色体内的基因数与K值相同;(b)对与染色体中基因相连的基因进行检测,选取在构建的无向边缘加权PPI网络Pl=(Vl,El,Wl)中最大出入度的相连邻居加入到染色体中,直到染色体内的基因数与K值相同;
(c)采用完全随机的方式生成个体,从相连的邻居中随机选择一个加入到个体中,不考虑其他因素,直到生成了N个个体,种群初始化完成;
5)记录最佳个体:迭代变量gen和t设置为零,让best记录最佳个体,即适应值函数得分最高的个体, 适应值函数为 其中其中N1计算模块 中直接相邻基因大于或等于1的基因数,N2计算
满足以下两个条件的顶点对的数量:(a)一对顶点之间的最短路径超过了给定的路径长度限制λ;(b)一对顶点之间没有路径;
6)进入:gen=gen+1,将best个体放入popgen,并使用轮盘赌选择算子从popgen-1中选择N-1个个体进入popgen;
7)使用五个突变算子产生:对于popgen中的每个 inpopgen进行如下
操作:如果 则通过在 上随机实现五个突变算子之一来产生X′igen;否则依次对gen
进行5个突变算子,将获得的适应度最大的新个体保留为X′i ;
8)选择:如果 则 若
则t=t+1;
9)完成驱动模块识别:重复步骤6)至步骤8),直到gen==mg或t==mt,则终止迭代,输出最优模块 即完成了在基于亚细胞定位数据降噪后的PPI网络中对大小规模为K的癌症驱动模块的识别。
2.根据权利要求1所述的基于生物网络和亚细胞定位数据识别癌症驱动模块方法,其特征在于,步骤7)中所述的五个突变算子分别为:a.单点突变算子:对于个体Xi,随机删除个体中的一个基因,从个体Xi中剩余的基因的邻居的集合中,选取与个体Xi连接边数最多的邻居加入到个体中,形成一个新的个体并返回到种群中;
b.两点突变算子:和上一个单点突变算子类似,唯一改变的就是从个体中删除的基因数变为2,新加入的连接边数最多的邻居数也为2;
c.度-权重突变算子:是本方法自己设计的突变算子,首先将个体Xi中度数最小的基因,在PPI网络G中从个体中删除,然后从与个体Xi中的基因相连的邻居基因中选取一个边权值最大的基因加入到个体中,形成一个新的个体返回;
d.度-度突变算子:先将个体中度数最小的基因,在PPI网络G中从个体中删除,然后从与个体Xi中剩余基因相连的邻居中选取一个与个体Xi连接度最高的邻居基因加入到个体中,形成新的个体返回;
e.权重-权重突变算子:先将个体Xi中与个体内其他基因的边权和最小的基因从个体中删除,从与个体内剩余基因相连的网络节点且不在个体中的节点中选取一个边权和最大的节点加入到个体中,形成新的个体并返回。