1.一种基于可视图算法的基因表达时序数据分类方法,包括以下步骤:(1)对原始基因表达时序数据依次进行噪声清除、缺失数据补充以及三维坐标展示预处理,获得多个数据条,每个数据条表示每个样本的每个基因在全时间段下的表达数据值;
(2)针对每个数据条,利用可视图算法对数据条进行映射后,构建基因网络,在构建的基因网络中,每个节点表示与数据条对应的样本基因在每个时刻的表达数据值;
(3)根据构建的基因网络中的节点以及节点之间的连接关系,提取基因网络的节点平均度、平均路径长度以及聚类系数;
(4)利用弱随机游走模型获得基因网络中的每个节点的游走序列;
(5)以节点的游走序列对应的分布式特征向量作为输入,以构建的实数形式的分布式特征向量作为监督输出,对神经网络进行训练,训练结束后,将节点的游走序列对应的分布式特征向量与最终输入权重矩阵的乘积作为该节点的特征向量;
(6)将基因网络的节点平均度、平均路径长度以及聚类系数以各占一个维度的方式添加到每个节点的特征向量中,获得基因网络的特征;
(7)采用密度聚类算法对基因网络的特征进行聚类,实现对基因时序数据的基因分类和样本分类。
2.如权利要求1所述的基于可视图算法的基因表达时序数据分类方法,其特征在于,所述步骤(1)包括:(1-1)清除原始基因表达时序数据中表达水平明显异常的噪声数据,具体为:首先,对于样本集在t时刻测量得到的基因表达数据,计算该基因表达数据在基因维度上的均值矩阵μ(j,t)与标准差矩阵σ(j,t),计算公式如下:式(1)和式(2)中,nN表示正常样本数量,gE(i,j,t)为基因表达时序数据,表示第i个样本的第j个基因在t时刻的表达数据值,其中,i∈(1,n),j∈(1,m),t∈(1,T);
然后,根据基因表达数据分布绘制对应的正态钟形曲线,并利用3σ原则,将置信区间外的基因表达数据视为噪声点并清除;
(1-2)补充原始基因表达时序数据中的缺失数据,具体为:首先,对于样本集中的第i个样本的某一维度的第j个基因进行时间维度上的二次函数拟合,拟合公式为:y2nd(t)=a2ndx2+b2ndx+c2nd (3)式(3)中,y2nd(t)∈gE(i,j,t),x∈t;
然后,通过计算系数值(a2nd,b2nd,c2nd)进行缺失时刻的基因表达数据的拟合补充;
(1-3)将噪声清除、缺失数据补充后的基因表达时序数据进行三维坐标展示,具体为:根据基因表达时序数据,构建三维坐标图,其中,三个维度分别为基因维度、样本维度与时间维度;
在三维坐标图中,每个坐标点表示某样本维度中的某个基因在相对应时间点的相对表达水平;一个样本的一个基因在全时间段下的表达数据值作为一个数据条,对于样本数量为n、基因数量为m的基因表达时序数据,经三维坐标展示后,可获得n*m个数据条。
3.如权利要求1所述的基于可视图算法的基因表达时序数据分类方法,其特征在于,所述利用可视图算法对数据条进行映射后,构建基因网络包括:构建可视图:
在平面内,将数据条中的每个数据点按照时间序列以直方条的形式进行呈现,直方条的高度代表每个数据点的表达数据值;如果两个直方条的顶端相互可视,则称这两个数据点可视,用直线将两个直方条的顶端相连且不穿越其他直方条,相对应的可视性准则如下:式(4)中,(ta,ya)和(tb,yb)为时间序列中相互可视的数据点,(tc,yc)为满足条件ta<tc<tb的任意数据点;
基于构建的可视图,构建连接图:
在平面内,将数据条中的各个数据点以实点的形式按照时间序列进行排列后,根据构建的可视图,将相互可视的两个数据点对应的实点连接,且每个实点不能与自身相连,以此形成的连接图作为基因网络。
4.如权利要求1所述的基于可视图算法的基因表达时序数据分类方法,其特征在于,所述步骤(3)包括:(3-1)计算基因网络的节点平均度,具体公式如下:
式(5)中,N表示基因网络中的节点总数,vi表示第i个节点的度,定义为与第i个节点相连接的所有节点的个数,Q为节点平均度;
(3-2)计算基因网络的平均路径长度,具体公式如下:
式(6)中,L为平均路径长度,dij为第i个节点与第j个节点之间的距离,定义为连接第i个节点与第j个节点的最短路径上的连边数量;
(3-3)计算基因网络的聚类系数,具体为:
首先,定义第i个节点的聚类系数Ci为:
Ci=2Ei/(ki(ki-1)) (7)
式(7)中,ki为与第i个节点直接连接的节点个数,Ei为将ki个节点连接起来的边的条数;
然后,计算基因网络中所有节点的聚类系数的平均值,以该平均值作为基因网络的聚类系数。
5.如权利要求1所述的基于可视图算法的基因表达时序数据分类方法,其特征在于,所述步骤(4)包括:(4-1)利用弱随机游走模型对基因网络中的每个节点进行随机游走,Ki表示游走中的第i个节点,并以Ki=nu开始,nu为游走的初始节点,Ki的生成满足一下分布条件:式(8)中,s为当前停留的节点,y为下一步可能游走的节点,πsy表示节点s与节点y间未标准化的转移概率,Z表示标准化常数;
对于Ki-2=t,t表示已游走的上一个节点,定义πsy=fπ(Θ)作为新游走概率,其计算公式为:fπ(Θ)=log(dty+10*Ci+1) (9)式(9)中,dty表示节点t与节点y间的最短路径,且dty∈{0,1,2},Ci为基因网络中节点i的聚类系数;
若πsy相等,则随机选择一个节点进行游走;
(4-2)利用步骤(4-1)中的方法,以基因网络中的每个节点作为初始节点进行游走,得到N条长度为lrandom walk的游走序列。
6.如权利要求1所述的基于可视图算法的基因表达时序数据分类方法,其特征在于,所述步骤(5)包括:(5-1)去除节点的游走序列中重复游走的节点,获得处理后节点的游走序列:(5-2)根据处理后的节点的游走序列,采用thermometer编码方式构建输入矩阵,该输入矩阵即为节点的游走序列对应的分布式特征向量;
(5-3)对输入矩阵与输入权重矩阵相乘后得到的矩阵进行加和求平均处理,获得输入层的输出矩阵;
(5-4)将输入层的输出矩阵作为隐藏层输入,并将输入层的输出矩阵与隐藏权重矩阵相乘获得的矩阵作为构建的实数形式的分布式特征向量;
(5-5)利用输入矩阵和构建的实数形式的分布式特征向量对神经网络进行训练,训练后获得最终输入权重矩阵;
(5-6)将节点的游走序列对应的分布式特征向量与最终输入权重矩阵的乘积作为该节点的特征向量。
7.如权利要求1所述的基于可视图算法的基因表达时序数据分类方法,其特征在于,步骤(5-1)中,按照游走顺序,将游走序列中排在后面的重复节点去除,以实现对游走序列的预处理。
8.如权利要求1所述的基于可视图算法的基因表达时序数据分类方法,其特征在于,所述步骤(6)包括:(6-1)基因分类:每次对一个样本中由m个基因得到的m组基因网络特征进行密度聚类,并记录聚类分布结果;在对n个样本依次进行密度聚类后,分析各个样本的聚类分布结果,观察获得基因在各个样本中的整体分布趋势,完成对基因的分类;
(6-2)样本分类:每次对n个样本中的由同一个基因得到的n组基因网络特征进行密度聚类,并记录聚类分布结果;在对m个基因都依次进行密度聚类后,分析各个基因的聚类分布结果,观察具有相似基因分布与结构的样本,完成对样本的分类。