1.基于基因表达和DNA甲基化数据的胃癌生物标志物识别方法,其特征在于,包括:步骤1:对基因表达数据与DNA甲基化数据进行数据预处理,分别得到基因表达矩阵和DNA甲基化矩阵;
步骤2:在基因表达矩阵和DNA甲基化矩阵上,分别采用互信息、FC、T‑test与FDR来筛选差异表达基因与差异甲基化位点,从而对数据进行降维;
所述步骤2具体为:
步骤2.1:对于基因表达数据,计算出每个基因的互信息值并按照从大到小顺序排序,选择TopN个基因作为初步选择的基因;
步骤2.2:计算步骤2.1选择的TopN个基因的FC值与p值,设置相应的阈值进一步筛选差异表达基因,同时引入FDR来修正p值,同样设置相应的FDR值的阈值,得到最终选择的差异表达基因;
步骤2.3:对DNA甲基化数据,按照步骤2.1和步骤2.2的方法得到差异甲基化位点;
所述的降维具体为:将差异表达基因与差异甲基化位点的交集作为潜在的胃癌的生物标志物,利用交集中的基因对基因表达数据与DNA甲基化数据进行降维;
步骤3:利用笛卡尔积将维度降低后的基因表达数据与DNA甲基化数据进行融合,形成扩展数据;
步骤4:基于步骤3获得的扩展数据,构建神经网络模型作为分类器验证所识别的胃癌生物标志物的分类能力。
2.根据权利要求1所述的方法,其特征在于,数据预处理过程如下:将单独存放的基因表达数据文件或DNA甲基化数据文件分别合并为一个基因表达矩阵文件或DNA甲基化矩阵文件,并将基因表达矩阵或DNA甲基化矩阵中每个样本的探针列名称转换为基因名称,若一个基因对应多个探针,则取这些基因表达值的中位数作为新的基因表达值;随后根据基因芯片注释文件添加每一个样本的类别;然后,去除数据中含有空值的基因,并执行z‑score 标准化使基因表达值转换到一个均值为0、方差为1 的区间。
3.根据权利要求1所述的方法,其特征在于,所述步骤3具体为:
将标签为胃癌的基因表达数据和DNA甲基化数据组合成新的胃癌数据,将标签为正常的基因表达数据和DNA甲基化数据组合成新的正常数据。
4.根据权利要求1所述的方法,其特征在于,所述步骤4中的神经网络模型由输入层、隐藏层和输出层组成;输入层由两部分组成,分别对应基因表达数据和DNA甲基化数据;隐藏层应用ReLU作为激活函数,输出层采用Sigmoid函数作为激活函数,使输出值介于0和1之间。
5.根据权利要求4所述的方法,其特征在于,隐藏层每层包含100个神经元,每一个隐藏层中增加Dropout;输出层仅有一个节点。