1.一种识别癌症驱动通路的方法,其特征在于,包括如下步骤:
1)构造加权的非二进制突变矩阵:
现有某个癌症的体细胞突变矩阵 拷贝数变异矩阵 和基因表达矩阵在体细胞突变矩阵 拷贝数变异矩阵 和基因表达矩阵 三个矩阵中行表示该癌症的相同样本集p,列分别表示基因集GS、GC和GE,在矩阵 中,sij∈{0,
1}(i=1,2,…,|p|,j=1,2,…,|GS|),i样本中j基因突变,sij值为1,反之值为0;矩阵中每个元素cij∈{‑2,‑1,0,1,2}(i=1,2,…,|p|,j=1,2,…,|GC|),表示i样本中j基因拷贝数变异值;在矩阵 中eij∈R(i=1,2,…,|p|,j=1,2,…,|GE|),表示i样本中j基因表达量;令矩阵 中的基因集为GA=GS∪GC,样本集为p,令 aij∈{0,1}(i=1,2,…,|p|,j=1,2,…,|GA|),其中 为突变矩阵,当sij取值为1或i样本中j基因处于统计显著变异区域时,aij值为1,反之值为0,为了进一步整合突变矩阵 和表达矩阵 在突变矩阵 和表达矩阵 中取基因集G=GA∩GE,重新得到两个矩阵A|p|×|G|和E|p|×|G|,对于基因表达数据,存在正常样本表达矩阵N|n|×|G|,n表示正常样本,在矩阵N|n|×|G|中,nij∈R(i=1,2,…,|p|,j=1,2,…,|G|),表示i样本中j基因表达量,令差异倍数矩阵D|p|×|G|,dij∈R(i=1,2,…,|p|,j=1,2,…,|G|),表示i样本中j基因表达量相比j基因在正常样本中表达量的差异倍数用 表示,其中 则dij值为否则dij值为0,处理好差异倍数矩阵D|p|×|G|,进一步对突变矩阵A|p|×|G|进行加权处理,整合成加权突变矩阵,对于A|p|×|G|,如果aij=1,并且dij≥λ1,则aij=1.5,如果‑1
aij=0,并且dij≥λ2,则aij=(2·l) ·dij,其中λ1和λ2是截取差异倍数的阈值,l是j基因对应所有样本中差异倍数的最大值,针对突变基因,λ1取较低值,使aij∈{1,1.5},以提高该突变基因的突变可信值;针对不突变基因,λ2取较高值,使aij∈[0,0.5],以提高该不突变基因的突变可信值,使其可能成为潜在基因,经过加权重新得到加权突变矩阵A|p|×|G|,aij∈[0,
1.5](i=1,2,…,|p|,j=1,2,…,|G|);
2)设定识别模型:
针对加权突变矩阵A|p|×|G|,基于高覆盖和高互斥两个特性,重新构建新的整合模型,假设M|p|×k为矩阵A|p|×|G|的任一子矩阵,令Γ(m)={mi|mi=max{aim|m∈M},i=1,2,…,|p|}记录矩阵M|p|×k每行中最大权值,令矩阵M|p|×k的覆盖度 对于矩阵M|p|×k中一行的互斥度,考虑这一行的离散程度,用变异系数计算每行的互斥度,每行互斥度之和为整个M|p|×k的互斥度,具体表示如公式(1)所示:其中 当 趋近于0值时,对于变异
系数值影响很大,所以如果M|p|×k中一行的最大权值mi≤0.5,则令该行的互斥度为放缩该行互斥度,避免该行互斥度过高对通路识别造成影响,根据和公式(1),对整合数据后的最大权重子矩阵问题重新定义模型:给定突变加权矩阵A|p|×|G|和正整数k(k<|G|),在矩阵A|p|×|G|中确定矩阵M|p|×k,使函数值W(M)最大,如公式(2)所示:
W(M)=α(M)+ω(M) (2),其中α(M)表示矩阵M|p|×k的覆盖度,α(M)由矩阵M|p|×k中每行最大突变权值相加所得,α(M)越大表示覆盖样本越多,并且突变可信值也越大;ω(M)表示矩阵M|p|×k的互斥度,ω(M)由M中每行变异系数值相加所得,变异系数越大,则离散程度越高,其互斥度就越大;
3)设定适应度函数:
每个染色体对应一个问题解,因此需要对该解进行评估,给定染色体Xi(i=1,2,…P),P为种群大小,适应度函数Fitness(Xi)的定义如公式(3)所示:其中, 表示染色体Xi对应的子矩阵;
4)设定交叉算子:
按照染色体适应度从大到小,给染色体Xi一个排名Ri,则每个染色体被选中的概率如公式(4)所示:
为了保证染色体的可行性,采用轮盘赌随机从父种群选取两条染色体,重复基因分别给子代的两条染色体,剩余基因放在一个集合,采用均匀交叉的方式,对于剩余基因的集合中连续的每对基因,随机生成一个二值数据,如果该二值数据为1,则这对基因的第一个基因放入第一条子染色体,第二个基因放入第二条子染色体,反之,第一个基因放入第二条子染色体,第二个基因放入第一条子染色体,经过一次交叉,生成两个子染色体;
5)设定变异算子:
给定一条子染色体X={x1,x2,…,xk}(xi=1,2,…,|G|),确定候选基因集合从子染色体中随机删除一个基因,得到基因集X′,将HX中基因顺序打乱,遍历前 个基因,选出基因g,使适应值Fitness(MX′∪{g})最大,对应于子矩阵MX′∪{g}的基因集X′∪{g}为新子染色体,即X=X′∪{g};
6)设定合作策略:
采用种群间相互合作策略,在种群交叉、变异和选择操作后,比较两个种群适应度最好的染色体和对方适应度最差的染色体,如果最好适应度高于对方最差适应度,则将该条染色体替换对方适应度最差的染色体;
7)设定参数:
输入加权的非二进制突变矩阵A|p|×|G|和公式(2)中的模型,参数k用于限制找到的驱动通路大小,然后输入CGA‑MWS相关参数:种群规模P、变异概率Pm、最大演化代数maxstep、最优值保持恒定的阈值maxt;
8)构造初始种群:
染色体编码采用十进制编码方式,一个解为k个基因构成的集合,即X={x1,x2,…,xk}(xi=1,2,…,|G|),将|G|个基因顺序随机打乱,然后取前k个基因构成初始染色体,生成两个初始种群pop0和pop1,每个种群大小为P/2,计算两个种群各自染色体的适应值,将pop0和pop1中各自最优的染色体相比较,保存最好的个体到变量best中,初始迭代次数step=0,最优值保持恒定的代数t=0;
9)执行迭代操作:
(1)若step>maxstep或t>maxt,转入步骤9)的(4),得到大小为k的驱动通路,否则转入步骤9)的(2);
(2)种群pop0和pop1各自通过基于排名的概率,采用轮盘赌随机选两条父代染色体,通过交叉算子进行交叉,生成两条子染色体,并各自放入子种群pop0′和pop1′中,重复P/4次,针对子种群pop0′和pop1′,对每条染色体随机一个突变概率Pm′,如果Pm′<Pm,则对该条染色体进行变异操作,将变异操作中得到的适应值最高的染色体替换该条染色体,将pop0和pop0′里所有染色体按适应值从高到低排序,取前P/2条染色体放入下一代种群popstep+1中,pop1和pop1′进行相同操作得到下一代种群popstep+2;
(3)对种群popstep+1和popstep+2进行合作策略操作,比较两个种群的最优适应值,取两者中适应值最高的染色体,若该染色体适应值大于best染色体的适应值,则更新best染色体,t=0;否则t=t+1,step=step+1,返回步骤9)的(1);
(4)将best染色体转换为基因集,由此得到子矩阵M,并子矩阵M其输出,输出的子矩阵M即为大小为k的驱动通路。