1.一种基于整合非负矩阵分解的样本聚类和特征识别方法,其特征在于包括如下步骤:(1)将多组学数据进行预处理,以矩阵形式记录这些数据,将多组学数据的特征看作变量,采集这些特征的个体看作样本,由m个特征在n个不同样本细胞中的表达组成了一个组学数据矩阵XI∈Rm×n{I=1,…P},X={X1,X2…XP}表示由同一种癌症的P个不同组学数据矩阵构成的多视图数据,将X中的所有元素都归一化到(0,1)上;
(2)首先,将多组学数据投影到公共的特征空间:对特征矩阵W进行图正则约束,尽可能多的保留原始组学数据的内在几何信息;并利用L2,1范数约束特征矩阵W来减小异常值和噪声的影响,构建整合非负矩阵分解的目标函数:其中,W为融合特征矩阵,HI为载荷矩阵,LI为图拉普拉斯矩阵,|| ||2,1表示矩阵的L2,1范数,Tr(·)表示矩阵的迹,λI表示图正则约束项Tr(WLIWT)的权重,β表示稀疏约束项的权重,λI和β均为正数;
其次,将多组学数据投影到公共的样本空间:对载荷矩阵H进行图正则约束,并利用L2,1范数约束载荷矩阵H,构建整合非负矩阵分解的目标函数:其中,WI为特征矩阵,H为融合样本矩阵;
(3)对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O1进行优化求解,得到相应的融合特征矩阵 和载荷矩阵 其中表示将多组学数据投影到一个公共特征空间得到的融合特征矩阵,其中wi表示第i个样本包含所有的组学数据信息, 为各组学数据的系数矩阵;
对基于稀疏和图正则约束整合非负矩阵分解方法的目标函数O2进行优化求解,得到相应的特征矩阵 和融合样本矩阵 其中表示各组学数据的特征矩阵, 表示将多组学数据投影到一个公共样本空间得到的融合样本矩阵;
(4)根据目标函数O1分解得到的融合特征矩阵 构造评价向量(5)对向量 中的元素按照降序排列,向量 中较大幅度的元素对应的特征被辨识为共差异特征;
(6)利用GeneCards数据库对辨识的差异特征进行功能解释;
(7)对根据目标函数O2进行优化求解得到的融合样本矩阵 进行样本聚类分析。
2.如权利要求1所述的基于稀疏和图正则约束的整合非负矩阵分解方法,其特征在于,步骤(3)中,目标函数O1的优化求解包括如下步骤:
3a)将融合特征矩阵 和载荷矩阵 中的元素全部初始化为(0,1)之间的随机数;
3b)选择降维之后的维数K的值,图正则约束权重λ,稀疏约束权重β;
3c)设定最大迭代次数,利用迭代公式
更新融合特征矩阵 中的元素Wia,其中Q∈Rn×n为对角阵,其对角元素为ε为无穷小的正数,利用 更新系数矩阵HI中的元素HIaj,其中i=1,2,...,m,j=1,2,...,n,k=1,2,...,K,UI为图正则约束中构造的权重矩阵, 为对称阵,DI为对角阵,且其对角线元素 采用交替更新融合特征矩阵 和系数矩阵HI的方法,得到局部最优解;
3d)算法收敛后得到融合特征矩阵W和系数矩阵HI。
3.如权利要求1所述的基于整合非负矩阵分解的样本聚类和特征识别方法,其特征在于,步骤(3)中,目标函数O2的优化求解包括如下步骤:
3i)将特征矩阵 和融合样本矩阵 中的元素全部初始化为(0,1)之间的随机数;
3ii)选择降维之后的维数K的值,图正则约束权重λ,稀疏约束权重β;
3iii)设定最大迭代次数,利用迭代公式 更新特征矩阵中的元素WIia,利用 更新融合样本
矩阵H中的元素Haj,采用交替更新特征矩阵 和融合样本矩阵H的方法,得到局部最优解;
3iv)算法收敛后得到特征矩阵WI和融合样本矩阵H。