1.一种单细胞ATAC‑seq数据分析方法,其特征在于,包括以下步骤:S1、采集ATAC‑seq特征峰的DNA一级序列,作为ATAC‑seq数据集;
S2、通过基于ProbDep Transformer的DNA语言模型对DNA一级序列进行分析,预测DNA一级序列中各细胞的染色质可达性,并学习每个细胞的功能状态和高阶特征;
S3、根据学习的功能状态和高阶特征,进行细胞类型注释;
S4、基于预测的染色质可达性,进行ATAC‑seq特征峰的染色质可达性图谱降噪;
S5、通过DNA语言模型,分析ATAC‑seq特征峰中每个转录因子在各细胞中的活跃性;
S6、将染色质可达性预测结果、细胞类型注释、降噪的染色质可达性图谱以及转录因子的活跃性分析结果作为单细胞ATAC‑seq数据分析结果;
所述步骤S2具体为:
S21、将长度为L的DNA一级序列采用独热编码映射至维数为4×L的隐式特征空间中,并将其转换为基元编码矩阵;
对DNA一级序列采用绝对位置编码生成维数为pos×2i的位置编码矩阵,将基元编码矩阵和位置编码矩阵相加作为DNA语言模型的输入数据;其中,pos为当前转录因子‑DNA结合基元在DNA一级序列中的位置下标,2i为当前转录因子‑DNA结合基元的位置编码向量的长度;
S22、在DNA模型中,采用长距离依赖性测量评估查询与键之间的依赖性的方法对输入数据进行分析,获得每个键向量聚焦于排名最高的u个查询向量,进而得到DNA模型的输出数据;
S23、将DNA模型的输出数据作为DNA一级序列的高维语义编码,通过序列高阶编码器将其映射到低维空间中,获得DNA一级序列的高阶特征;
S24、根据获得的高阶特征,通过染色质可达性预测器预测当前DNA一级序列在各细胞的染色质可达性大小,并学习得到每个细胞的功能状态和高阶特征。
2.根据权利要求1所述的单细胞ATAC‑seq数据分析方法,其特征在于,所述步骤S22中,长距离依赖性测量的表达式为:式中, 为长距离依赖性测量操作, 表示qi向量与全部键向量之间经过Log‑Sum‑Exp操作之后的结果, 表示Log‑Sum‑Exp结果的算术平均值,qi为查询矩阵Q的第i行,K为键矩阵,In为求对数操作,l为键矩阵K中当前行的下标,Lk为键矩阵K中行的个数, 为键矩阵K中的第k行的转置,d为键矩阵K中列的个数;
DNA模型的输出数据表示为:
式中, 为自注意力机制操作的输出, 为自注意力机制操作,Q,K,V分别为查询矩阵,键矩阵,值矩阵,Softmax(·)为激活函数, 为与矩阵Q大小相同的稀疏矩阵,且只包含了了长距离依赖性测量中排名最高的u个查询向量。
3.根据权利要求2所述的单细胞ATAC‑seq数据分析方法,其特征在于,所述步骤S23中,DNA一级序列的高阶特征 为:式中,ELU(·)为ELU激活函数,Wf和bf分别为序列高阶编码器的权重矩阵和截距向量,Conv1(·)为1维卷积操作。
4.根据权利要求3所述的单细胞ATAC‑seq数据分析方法,其特征在于,当前DNA一级序列在各细胞的染色质可达性大小y为:式中,σ(·)为Sigmoid激活函数,Wp和bp分为染色质可达性预测器的权重矩阵和截距向量,其中,权重矩阵作为全部细胞的功能状态和高阶特征矩阵。
5.根据权利要求1所述的单细胞ATAC‑seq数据分析方法,其特征在于,所述步骤S3具体为:S31、根据学习的功能状态和高阶特征构建k‑近邻图;
其中,在构建的k‑近邻图中节点为细胞,边为细胞之间的相关性;
S32、在构建的k‑近邻图中,划分每个细胞的类型,并进一步在二维空间中可视化细胞类型注释结果。
6.根据权利要求1所述的单细胞ATAC‑seq数据分析方法,其特征在于,所述步骤S4具体为:S41、获取原始ATAC‑seq数据,即染色质可达性特征峰矩阵;
S42、通过混合概率模型搜索染色质可达性特征峰矩阵中由实验误差导致的零计数,进而计算特征峰i在细胞类型k的细胞m中的丢失率;
S43、对于给定的细胞m,根据其每个特征峰的丢失率,将全部特征峰划分为待修正的特征峰集合Am和无需修正的特征峰集合Bm;
S44、将通过DNA语言模型预测的特征峰i在每个细胞中的染色质可达性大小作为候选修正计数,对特征峰集合Am中的特征峰进行修正,进而获得降噪后的ATAC‑seq特征峰的染色质可达性图谱。
7.根据权利要求6所述的单细胞ATAC‑seq数据分析方法,其特征在于,所述步骤S42中的混合概率模型包括伽马分布模型和正态分布模型,其中伽马分布模型表示实验误差,正态分布模型表示scATAC‑seq特征峰的真实计数。
8.根据权利要求6所述的单细胞ATAC‑seq数据分析方法,其特征在于,所述步骤S42中,特征峰i在细胞类型k的细胞m中的丢失率dim为:式中, 表示参数 的
估计值, 为特征峰i在细胞类型k中的整体丢失率, 和 为伽马分布的形状参数和尺度参数, 和 为正态分布的均值和标准差。
9.根据权利要求2所述的单细胞ATAC‑seq数据分析方法,其特征在于,所述步骤S5具体为:S51、随机选择s条scATAC‑seq特征峰序列进行二核苷酸打乱生成s条的背景序列;
S52、设定一个转录因子,将其与DNA结合基元插入到s条背景序列中心位置,生成s条合成序列;
S53、通过DNA模型分别预测s条背景序列和s条合成序列的染色质可达性;
S54、将单个细胞的背景序列和合成序列的平均染色质可达性预测差值作为当前转录因子在该单个细胞中的活跃性分析结果。