1.一种基于异质图扩散卷积网络的癌症驱动基因识别方法,其特征在于,使用基于随机游走的图扩散生成辅助网络,对原生物分子网络数据进行数据增强,构建了一种基于图注意力卷积层的特征提取模块同时提取原生物分子网络数据和辅助生物分子网络数据并进行特征融合,然后将融合后的特征输入多层注意力分类器得到癌症驱动基因的预测评分,包括图数据增强与预处理、特征提取模块的构建和多层注意力分类器的构建三个步骤,其具体步骤如下:步骤 1、首先,加载癌症驱动基因的生物分子网络的基因特征矩阵和边数据;然后,先将基因特征矩阵转换为NumPy数组,将这些数据标准化,再将NumPy数组转换为PyTorch张量;使用基于随机游走的图扩散算法增强原生物分子网络,得到辅助生物分子网络;
步骤2、首先,使用PyTorch Geometric框架的utils.dropout_edge函数将原生物分子网络和辅助生物分子网络的边数据进行随机失活,丢弃率为0.5,使用PyTorch框架的nn.Functional.F.dropout函数将特征矩阵进行随机失活,丢弃率为0.5;然后,使用PyTorch框架的nn.Linear函数将特征矩阵进行特征变换,其输入维度58,输出维度80;接着,使用PyTorch Geometric框架的nn.GATConv函数构建4个卷积层对输入特征进行传播和转换;第一个卷积层输入为原生物分子网络边数据和特征变换后的矩阵,第二个卷积层输入为辅助生物分子网络边数据和特征变换后的矩阵,将这两个卷积层输出经ReLU函数激活后进行特征融合得到第一次特征提取后的矩阵,其输入维度80,输出维度160,注意力头数为2,丢弃率为0.5;第三个卷积层输入为原生物分子网络边数据和第一次特征提取后的矩阵,第四个卷积层输入为辅助生物分子网络边数据和第一次特征提取后的矩阵,其输入维度160,输出维度160,注意力头数为2,丢弃率为0.5将这两个卷积层输出经ReLU函数激活后进行特征融合得到第二次特征提取后的矩阵;
步骤3、将步骤2中经特征变换的特征矩阵和两次特征提取后的特征矩阵分别传入全连接层中,输出一个标量,然后将三个标量各自乘以一个权重并求和得到最终的癌症驱动基因的预测评分。