知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

基于深度学习的nanopore测序数据碱基识别方法

￥66200

专利号： 2021111724435

申请人：东北林业大学

专利类型：发明专利

专利状态：已下证

更新日期：2024-02-23

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.基于深度学习的nanopore测序数据碱基识别方法，包括以下步骤：步骤一：下载包括肺杆菌、肠杆菌、变形杆菌在内的50组nanopore原始数据作为训练集；

步骤二：对50组原始数据进行碱基识别，得到碱基序列；

步骤三：获取准确率在99％以上的Illumina测序序列，并以准确率在99％以上的Illumina测序序列作为参考基因组，以参考基因组作为ground truth并使用Tombo算法对碱基序列进行校正；

步骤四：使用Re‑squiggle方法将校正后的碱基序列转换为对应的电信号数据，然后将电信号数据进行标记；

步骤五：利用标记后的电信号数据以及原始数据训练神经网络，并利用训练好的神经网络进行碱基识别；

其特征在于所述神经网络包括第一卷积层、第二卷积层、BERT模块、全连接层和CTC解码模块；

所述第一卷积层用于对标记后的电信号数据进行降采样，所述第二卷积层用于对降采样后的电信号数据进行特征提取，所述第一卷积层和第二卷积层后设有BN层，所述BN层用于防止均值和方差饱和，所述BERT模块用于根据提取到的特征进行训练，并输出电信号数据对应的碱基序列，所述全连接层使用softmax函数对电信号数据对应的碱基序列进行处理，得到原始电信号对应的各个碱基序列的概率，所述CTC解码模块对原始电信号对应的各个碱基序列的概率进行处理，得到最终的碱基序列，

所述第一卷积层中卷积核的大小为1×3，步长为1×2，输出通道为128，所述第二卷积层中卷积核的大小为1×3，步长为1×2，输出通道为128，所述BERT模块包含12层的Transformer，768维的Embedding隐藏层和12头的注意力机制层。

2.根据权利要求1所述的基于深度学习的nanopore测序数据碱基识别方法，其特征在于所述标记后的电信号数据特征表示为：其中，c表示测序数据，xc表示测序数据对应的特征，ω是卷积核的权重，其中参数k设置为3，i和j是序列初始位置，T是序列的长度，x表示累加。

3.根据权利要求2所述的基于深度学习的nanopore测序数据碱基识别方法，其特征在于所述BN层表示为：

其中，α、β和∈是模型学到的参数，xbn是卷积层输出的序列特征，E是计算期望的函数，Var是方差函数。

4.根据权利要求3所述的基于深度学习的nanopore测序数据碱基识别方法，其特征在于所述softmax函数表示为：其中，zi表示为第i个节点的输出值，C为分类类别的个数，e表示自然对数函数的底数，为一个数学常数，Zc表示第c个节点的输出值。

5.根据权利要求4所述的基于深度学习的nanopore测序数据碱基识别方法，其特征在于所述CTC解码模块具体执行如下步骤：针对BERT层输出的预测序列，首先使用beamsearch算法迭代生成候选碱基序列，beam宽度为3，然后对候选碱基进行打分，并去掉碱基序列中的空白字符和冗余字符，选取得分最高的碱基序列作为最终的预测结果，碱基序列存在空白字符的概率为：‑1

x是BERT层的输出序列，π表示所中间结果对应的路径，β (l)表示算法搜索过程中所有满足条件的路径，I为输出结果，P(I|x)表示序列中空白字符的概率，利用碱基序列空白字符概率表示CTC损失函数，等于最小化对数域‑ln(P(π|x))，CTC损失函数表示为：

其中，ln()表示自然对数。

6.根据权利要求1所述的基于深度学习的nanopore测序数据碱基识别方法，其特征在于所述步骤二中对50组原始数据进行碱基识别通过碱基识别工具Guppy进行。