欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022101801177
申请人: 河南大学
专利类型:发明专利
专利状态:已下证
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度中心点模型的蛋白质折叠识别方法,其特征在于,包括:步骤1:确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;

步骤2:采用预训练的蛋白质语言模型ProtT5‑XL‑UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;

步骤3:构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;

步骤4:确定训练深度嵌入网络的目标函数;

步骤5:基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;

步骤6:基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。

2.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,所述步骤1包括:采用LINDAHL数据集作为蛋白质折叠测试数据集,基于数据库SCOPe 2.06构造蛋白质折叠训练数据集。

3.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,每个所述卷积块包含一个一维卷积层、一个批处理归一化层和一个Hardswish激活函数。

4.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,所述深度嵌入网络的输入是一个大小为N×1024×L的三维张量X和一个大小为N×L的二元矩阵M,其中N表示mini‑batch中蛋白质链的个数,L表示mini‑batch中最长蛋白质链的长度。

5.根据权利要求4所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,在构造mini‑batch时,通过二元矩阵M来指示填充位置,对较短蛋白质链的嵌入特征矩阵进行零填充,M中元素Mij=1表示mini‑batch中第i个蛋白质链的第j个残基是真实存在的,Mij=

0表示mini‑batch中第i个蛋白质链的第j个残基不存在,并且该位置在嵌入矩阵中对应的向量是填充的全零向量。

6.根据权利要求5所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,软池化操作层的输出矩阵Y按如下公式进行计算:其中L表示mini‑batch中最长蛋白质链的长度,N表示mini‑batch中蛋白质链的个数,A表示第二个卷积块输出的特征张量。

7.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,所述步骤4包括:在嵌入空间中为训练数据集中的每个折叠类别指派一个中心点向量;令第k个折叠类(k) d别的中心点向量为c ∈R ,则称其为折叠类别为k的蛋白质链的目标中心点向量,其他中心点向量为折叠类别为k的蛋白质链的非目标中心点向量;

给定一个mini‑batch,令向量t表示mini‑batch中蛋白质链的真实标签向量,Yi,:表示第i个蛋白质链在嵌入空间中对应的嵌入向量,将目标函数定义为如下的形式:(j)

其中N表示mini‑batch中蛋白质链的个数,dij=1‑表示第i个蛋白质链与第j个中心点向量间的余弦距离,m是需要调整的间隔参数,铰链损失函数[·]+=max(·,0)。

8.根据权利要求7所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,在深度嵌入网络训练开始之前,所有中心点向量都被随机初始化为单位向量,并在深度嵌入网络的训练过程中与网络参数同时进行更新。

9.根据权利要求1所述的基于深度中心点模型的蛋白质折叠识别方法,其特征在于,所述步骤6包括:首先采用训练好的深度嵌入网络将训练数据集中的所有蛋白质链映射到嵌入空间,得到训练数据集中各蛋白质链对应的嵌入向量,基于各嵌入向量及对应的折叠类型构造查询模板集;然后将测试蛋白质链映射为嵌入向量,并计算其与查询模板集中的每个嵌入向量的余弦相似性距离,最后通过K近邻分类器对测试蛋白质链进行蛋白质折叠类型识别。

10.一种基于深度中心点模型的蛋白质折叠识别系统,其特征在于,包括:数据集确定模块,用于确定蛋白质折叠训练数据集和测试数据集,所述蛋白质折叠训练数据集和测试数据集均包含多条蛋白质链;

嵌入矩阵生成模块,用于采用预训练的蛋白质语言模型ProtT5‑XL‑UniRef50生成蛋白质折叠训练数据集中蛋白质链的嵌入矩阵;

网络构建模块,构建深度嵌入网络用于蛋白质折叠识别,所述深度嵌入网络由两个卷积块、一个软池化操作层、两个全链接层、一个Dropout层和一个归一化层组成;

目标函数得出模块,用于确定训练深度嵌入网络的目标函数;

网络训练模块,用于基于蛋白质折叠训练数据集和训练深度嵌入网络的目标函数训练深度嵌入网络;

折叠类别识别模块,用于基于蛋白质折叠训练数据集、测试数据集和训练好的深度嵌入网络预测蛋白质链的折叠类别。