1.一种基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法,其特征在于,包括:步骤1:确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
步骤2:采用预训练的蛋白质语言模型ProtT5‑XL‑UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
步骤3:通过计算均值和余弦相似性将嵌入矩阵转化为蛋白质链的固定长度的特征向量;
步骤4:构建蛋白质折叠识别网络模型,所述蛋白质折叠识别网络模型为由三个全连接层组成的多层感知机,且多层感知机的最后一层全连接层采用的是归一化的全连接层;
步骤5:采用针对不平衡分类的标签分布意识的间隔损失作为训练折叠识别网络模型的损失函数;
步骤6:基于蛋白质折叠训练数据集和训练折叠识别网络的损失函数训练折叠识别网络模型;
步骤7:基于蛋白质折叠测试数据集和训练好的折叠识别网络模型预测蛋白质链的折叠类别。
2.根据权利要求1所述的基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法,其特征在于,所述步骤2包括:对于蛋白质折叠训练数据集中任意一个长度为L的蛋白质链,先将其氨基酸序列中的所有字符都转换为大写字符,并将转换后的氨基酸序列作为模型ProtT5‑XL‑UniRef50的输入,最后在半精度模式下运行该模型并保存其编码器的输出,获得大小为L×1024的嵌入特征矩阵。
3.根据权利要求2所述的基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法,其特征在于,所述步骤3包括:对于给定的大小为L×1024的嵌入矩阵E,首先计算嵌入矩阵每列的均值,获得长度为
1024的特征表示:
其中l表示嵌入矩阵E的行数;
然后计算嵌入矩阵每行的均值,获得长度为L的向量:接着计算frow_mean与嵌入矩阵每个列向量的余弦相似度,获得长度为1024的特征表示:T
fcos_sim=[s1,s2,...,sj,...s1024]余弦相似度sj按如下公式进行计算:
其中<·,·>表示两个向量的内积,||·||表示向量的长度;
最后,将两个向量fcol_mean与fcos_sim拼接成一个向量来表示蛋白质链的特征,通过上述操作每个蛋白质链可以表示成2048维的特征向量。
4.根据权利要求1所述的基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法,其特征在于,所述步骤6还包括:采用PyTorch深度学习框架的默认权值初始化方法初始化多层感知机的网络参数。
5.根据权利要求1所述的基于嵌入特征和不平衡分类损失的蛋白质折叠识别方法,其特征在于,所述步骤7包括:首先执行步骤2和步骤3以将蛋白质折叠测试数据集中蛋白质链表示为特征向量,然后将该特征向量输入训练好的折叠识别网络模型中,将得分最高的折叠类别分配给该蛋白质链。
6.一种基于嵌入特征和不平衡分类损失的蛋白质折叠识别系统,其特征在于,包括:数据集确定模块,用于确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;
嵌入矩阵生成模块,用于采用预训练的蛋白质语言模型ProtT5‑XL‑UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;
特征向量得出模块,用于通过计算均值和余弦相似性将嵌入矩阵转化为蛋白质链的固定长度的特征向量;
模型构建模块,用于构建蛋白质折叠识别网络模型,所述蛋白质折叠识别网络模型为由三个全连接层组成的多层感知机,且多层感知机的最后一层全连接层采用的是归一化的全连接层;
损失函数得出模块,用于采用针对不平衡分类的标签分布意识的间隔损失作为训练折叠识别网络模型的损失函数;
模型训练模块,用于基于蛋白质折叠训练数据集和训练折叠识别网络的损失函数训练折叠识别网络模型;
折叠类别识别模块,用于基于蛋白质折叠测试数据集和训练好的折叠识别网络模型预测蛋白质链的折叠类别。
7.根据权利要求6所述的基于嵌入特征和不平衡分类损失的蛋白质折叠识别系统,其特征在于,所述嵌入矩阵生成模块具体用于:对于蛋白质折叠训练数据集中任意一个长度为L的蛋白质链,先将其氨基酸序列中的所有字符都转换为大写字符,并将转换后的氨基酸序列作为模型ProtT5‑XL‑UniRef50的输入,最后在半精度模式下运行该模型并保存其编码器的输出,获得大小为L×1024的嵌入特征矩阵。
8.根据权利要求7所述的基于嵌入特征和不平衡分类损失的蛋白质折叠识别系统,其特征在于,所述特征向量得出模块具体用于:对于给定的大小为L×1024的嵌入矩阵E,首先计算嵌入矩阵每列的均值,获得长度为
1024的特征表示:
其中l表示嵌入矩阵E的行数;
然后计算嵌入矩阵每行的均值,获得长度为L的向量:接着计算frow_mean与嵌入矩阵每个列向量的余弦相似度,获得长度为1024的特征表示:T
fcos_sim=[s1,s2,...,sj,...s1024]余弦相似度sj按如下公式进行计算:
其中<·,·>表示两个向量的内积,||·||表示向量的长度;
最后,将两个向量fcol_mean与fcos_sim拼接成一个向量来表示蛋白质链的特征,通过上述操作每个蛋白质链可以表示成2048维的特征向量。
9.根据权利要求6所述的基于嵌入特征和不平衡分类损失的蛋白质折叠识别系统,其特征在于,所述模型训练模块还用于:采用PyTorch深度学习框架的默认权值初始化方法初始化多层感知机的网络参数。
10.根据权利要求6所述的基于嵌入特征和不平衡分类损失的蛋白质折叠识别系统,其特征在于,所述折叠类别识别模块具体用于:首先执行嵌入矩阵生成模块和特征向量得出模块以将蛋白质折叠测试数据集中蛋白质链表示为特征向量,然后将该特征向量输入训练好的折叠识别网络模型中,将得分最高的折叠类别分配给该蛋白质链。