1.一种蛋白质谱图数据库快速增量构建方法,其特征在于,包括以下步骤:S1、采用gleams深度嵌入模型中的Embedder嵌入器对增量谱图数据进行降维处理,得到降维后的增量数据;通过faiss框架中的IndexIVFFLat索引方法对降维后的增量数据进行索引创建,得到增量数据的索引id文件IC.index;
S2、将蛋白质谱图库的索引id文件DB.index与增量数据的索引id文件IC.index索引进行合并,得到合并索引;
S3、采用KNN算法,通过增量数据对合并索引进行局部搜索,采用增量聚类方法对新增数据进行初步聚类,得到初步聚类后的增量数据,将初步聚类的数据和聚类库中的数据进行合并:通过单点和批量插入数据的方式实现聚类后的增量数据到蛋白质谱图库的插入操作;
S4、对数据库中的数据进行去除重复操作,同时合并满足阈值的簇中的数据,完成谱图数据库的增量聚类;
S5、存储谱图库的索引,为下次新数据添加时合并使用。
2.根据权利要求1所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,gleams深度嵌入模型包括:Embedder嵌入器、索引模块、增量聚类模块;所述Embedder嵌入器用于降维;所述索引模块用于索引合并,所述索引模块选取IndexIVFFLat作为gleams深度嵌入模型索引,实现了索引合并和便利了索引的自定义;所述增量聚类模块用于聚类。
3.根据权利要求2所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,Embedder嵌入器中包括共享权重的两个相同的基于深度学习的谱图嵌入模型,两个谱图嵌入模型使用孪生神经网络连接。
4.根据权利要求2所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,所述索引模块选用IndexIVFFLat索引。
5.根据权利要求1所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,步骤S1具体包括:
S11、获取高质量的实验谱图数据作为增量数据,将增量数据输入gleams深度嵌入模型,在gleams深度嵌入模型中通过Embedder嵌入器对成对输入的增量数据进行降维处理,得到降维后的增量数据;
S12、通过faiss框架中的IndexIVFFLat索引方法对降维后的增量数据进行索引创建,得到增量数据的索引id文件IC.index;
索引创建完成的基础上进行数据搜索,通过KNN算法对每条索引索索其最近的1000个邻居,得到KNN搜索的索引结果;
S13、对KNN搜索的索引结果进行筛选:根据KNN搜索的每条索引的value值,对索引key进行降序排列,根据筛选条件对降序排列的索引进行筛选,进而实现对增量谱图的过滤,从增量数据中自动选取簇心进行聚类;
S14、计算邻居索引与簇心索引的距离,合并簇心距离在阈值范围内的簇集合,输出聚类结果,完成增量数据的聚类。
6.根据权利要求5所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,在gleams深度嵌入模型中通过Embedder嵌入器对成对输入的增量数据进行降维处理,得到降维后的增量数据,具体包括:
S01、将谱图数据中的前体特征、特征强度和参考光谱分别输入两个嵌入模型,在嵌入模型中进行一系列卷积、池化操作,将谱图数据嵌入到新的n维空间中,得到两个嵌入模型分别嵌入到n维空间中的嵌入谱图对;
S02、计算嵌入谱图对之间的欧式距离,根据欧氏距离及label值计算损失函数;
S03、根据损失函数,对谱图对进行惩罚,更新Embedder嵌入器的权值,具体操作是:将输入的由相同肽段产生的相似谱图对拉到一起,将由不同肽段产生的负谱图对推开,最终将谱图对映射到新的低维空间中,形成降维后的增量数据。
7.根据权利要求6所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,损失函数的计算公式如下:
其中,L表示损失函数,W表示Embedder嵌入器中的权重;label表示惩罚项,取值为0或
1,label=1表示两个谱图由相同肽段产生,label=0表示两个谱图由不同肽段产生;Ea和Eb分别表示增量原始谱图、数据库原始谱图通过Embedder嵌入器转换之后的特征向量。
8.根据权利要求1所述的一种蛋白质谱图数据库快速增量构建方法,其特征在于,合并索引前已获得蛋白质谱图库的索引id文件DB.index,合并索引时,通过调用faiss库中index函数实现索引数据的添加,之后使用merge_from函数实现索引文件的合并,索引在合并的过程中,根据上层索引的长度,自动递增的添加索引,使得索引连续,便于局部数据搜索;在数据进行搜索时,将增量数据通过合并的索引值进行局部搜索,加快KNN搜索速度,提升模型性能。