1.一种基于共表达网络的癌症靶向标志物测绘方法,其特征在于:所述方法包括以下步骤:
1)构建共表达基础网络,根据特征基因的基因表达数据计算邻接矩阵与拓扑矩阵,过程如下:
1.1)将已经经过预处理与筛选的特征基因的基因表达数据作为构建共表达基础网络的源数据;
1.2)计算邻接矩阵,使用基因间表达水平的相关系数的幂指数加权值作为共表达的邻接矩阵,表示为Amatrix=[aij],计算公式如下:式(1)中,Mpool3表示候选基因个数,即特征基因的数量;cor(·,·)表示基因i与基因j之间的相关系数;β表示加权幂指数,β的值根据无标度网络原则确定:即出现连接度为k的节点个数与该节点出现的概率p(k)反比于k的τ次方,且此时的相关系数需大于某一阈值thre;
1.3)计算拓扑矩阵,考虑基因与其它所有基因间的邻接关系,将邻接矩阵Amatrix转换为拓扑矩阵Ωmatrix=[ωij],计算公式如下:式(2)中,lij=∑uaiuauj表示与基因i、j都存在连边的基因u的邻接系数乘积和,ki=∑uaiu表示与基因i单独连接的基因u的邻接系数和,kj=∑uaju表示与基因j单独连接的基因u的邻接系数和;在与基因i和j之间无直接连接,且无任何其它的基因将这两个基因间接连接的情况下,取ωij=0;
2)提取共表达基础网络的特征,即将拓扑网络的各个基因节点转换为特征向量作为网络的特征值,过程如下:
2.1)根据步骤1.3)中得到的拓扑矩阵确定共表达网络的基本结构;
2.2)针对网络中的每个节点进行二阶随机游走,节点总数表示为N,对于一个初始的头结点nu,定义游走长度为lrandomWalk,Ci表示游走中的第i个节点,并以C0=nu开始,Ci的生成满足以下分布:式(3)中,x为下一步可能游走的节点,ν为当前停留的节点,πvx表示节点v与x间未标准化的转移概率,Z表示标准化常数;对于Ci-2=t,t表示已游走的上一个节点,定义πvx=αpq(t,x),其计算公式为:式(4)中,α表示带p、q参数的偏置量,dtx表示节点t与x间的最短路径,且dtx∈{0,1,2};
为了避免相邻节点间的重复游走并确保游走的范围尽可能大,可将参数p设置为一个较大值,取p>1将q设置为一个较小值,取q<1;若πvx相等,则随机选择一个节点进行游走;
2.3)根据步骤2.2)将网络中的每个节点作为头结点进行游走,得到N条长度为lrandomWalk的游走序列;
3)训练神经网络模型,根据步骤2.3)中得到的游走序列,进行神经网络模型参数的训练,过程如下:
3.1)将网络中的每一个基因节点表示成实数形式的分布式特征向量,同时使用游走序列中的节点的分布式特征向量来表示网络节点间的连接概率函数;
3.2)学习分布式特征向量与概率函数的参数,其中的训练集为步骤2.3)得到的游走序列;以一条游走序列为例,对序列中重复游走的节点仅保留第一个,处理后得到新的节点序列表示为{W1,W2,...,WT},WT∈V,其中V是节点集合,即大小为N的有限集合;训练目标是找到一个好的模型,使得该模型满足 唯一的约束条件为:式(5)中,函数f(Wt-1,…,Wt-n+1)可以分解为两个部分:第一部分为映射H(·),其中H(i)表示节点集合中的每个节点的分布式特征向量,H实际上是一个由自由参数构成的|V|*m矩阵,其中m为自定义的向量维度;第二部分为函数g(·),该函数将输入的节点特征向量(H(Wt-n+1),…,H(Wt-1))映射为节点Wt前面n-1个节点的条件概率分布,即:f(i,Wt-1,…,Wt-n+1)=g(i,H(Wt-1),…,H(Wt-n+1)) (6)当寻找得到满足带惩罚项的训练序列的对数似然率最大的θ,则训练结束,即:
神经网络的组成包括一个隐藏层,一个映射层,以及一个可选的直连层;最底层是单一的节点,表示成one-hot编码形式,即将节点表示成一个很长的向量,向量的分量只有一个
1,其他全为0,1所对应的位置就是该节点在新的节点序列中的索引,向量长度为向量集的长度|V|;然后,每个one-hot编码的向量分别与投影矩阵H相乘,则原来长度为|V|的one-hot向量,经过线性变换以后,缩短为一个长度为m的向量,其中m是预先设置的特征个数,即向量的维度,向量维度一般为2个数量级;投影完成以后,将所有的特征向量按照顺序首尾相连,形成一个长度为m*(n-1)的向量,以节点向量作为隐藏层的输入,隐藏层的激活函数取为双曲正切函数tanh(·);输出层接受隐藏层的输出作为输入,经过softmax(·)函数进行转换,得到最终的输出P为:式(8)中,y=b+Wx+U tanh(d+Kx);双曲正切函数逐个应用于隐藏层的各个单元;当神经网络节点间没有直连的时候,W=0,x是首尾相连的特征向量,即:x=(H(Wt-1),H(Wt-2),…,H(Wt-n+1)) (9)
3.3)训练结束以后,矩阵H就是需要的节点特征向量,每一行代表该位置的节点的向量;
4)进行癌症靶向标志物测绘,根据基于密度峰的聚类中心自适应算法进行靶向基因社区的自动发现,过程如下:
4.1)将步骤3)得到的特征向量作为输入;
4.2)定义待聚类的向量矩阵 其中xi表示矩阵的每一行,即步骤3.3)中该位置的节点的向量,相应指标集定义为IH={1,2,...,N},任意两行向量xi和xj之间的欧式距离定义为:式(10)中,m表示向量的维度;对于H中的任一向量xi,定义其对应节点的局部密度ρi表示H中与xi之间的距离小于dc的向量个数,即:其中
式(11)中,dc>0表示截断距离,此处指定dc为模长最大与模长最小的两个向量xmax与xmin之间欧式距离的2%,即:dc=0.02*dist(xmax,xmin) (12)设 表示 的一个降序排列下标序,即满足ρq1≥ρq2≥…≥ρqN,则可定义对应向量的距离δi为:
4.3)对于H中的每一行向量,计算其对应的密度值和距离值(ρi,δi),i∈IS;根据得到的和 绘制决策图(以ρ为横轴,δ为纵轴),自动确定密度值和距离值都较大的基因节点作为聚类中心,对剩余的基因节点按照距离最近原则进行归类得到不同的基因模块。
2.如权利要求1所述的基于共表达网络的癌症靶向标志物测绘方法,其特征在于:所述步骤3)中,将步骤2)中得到的游走序列作为神经网络训练的训练集,其处理过程为:对每条游走序列进行节点剔除,即对于一条序列中重复出现的节点仅保留第一个,完成后得到新的节点序列。
3.如权利要求1或2所述的基于共表达网络的癌症靶向标志物测绘方法,其特征在于:
在所述步骤3)中,由于步骤2)中得到的游走序列不能保证将整个网络完全遍历,因此新的节点序列不包含所有节点,即得到的节点特征向量不完整;为了保证每条游走序列都是以网络中的不同节点作为初始头节点,对整个网络进行N次重复游走,重复游走策略为:对于每次训练得到的矩阵H,只选取第一条,即该游走序列起始节点的特征向量,以N条游走序列作为N个训练集,可得到N个矩阵,选取每个矩阵的第一条,即可得到N条特征向量,分别对应于N个初始头节点。
4.如权利要求1或2所述的基于共表达网络的癌症靶向标志物测绘方法,其特征在于:
在所述步骤4)中,在完成社区发现后,计算总网络和各个子网络的特征值,如平均聚类系数、平均介数等,并结合临床数据验证具有较高网络特征的基因模块与研究人员关注的表现型之间的相关性,完成对癌症靶向标志物的测绘。