欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021111724435
申请人: 东北林业大学
专利类型:发明专利
专利状态:已下证
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于深度学习的nanopore测序数据碱基识别方法,包括以下步骤:步骤一:下载包括肺杆菌、肠杆菌、变形杆菌在内的50组nanopore原始数据作为训练集;

步骤二:对50组原始数据进行碱基识别,得到碱基序列;

步骤三:获取准确率在99%以上的Illumina测序序列,并以准确率在99%以上的Illumina测序序列作为参考基因组,以参考基因组作为ground truth并使用Tombo算法对碱基序列进行校正;

步骤四:使用Re‑squiggle方法将校正后的碱基序列转换为对应的电信号数据,然后将电信号数据进行标记;

步骤五:利用标记后的电信号数据以及原始数据训练神经网络,并利用训练好的神经网络进行碱基识别;

其特征在于所述神经网络包括第一卷积层、第二卷积层、BERT模块、全连接层和CTC解码模块;

所述第一卷积层用于对标记后的电信号数据进行降采样,所述第二卷积层用于对降采样后的电信号数据进行特征提取,所述第一卷积层和第二卷积层后设有BN层,所述BN层用于防止均值和方差饱和,所述BERT模块用于根据提取到的特征进行训练,并输出电信号数据对应的碱基序列,所述全连接层使用softmax函数对电信号数据对应的碱基序列进行处理,得到原始电信号对应的各个碱基序列的概率,所述CTC解码模块对原始电信号对应的各个碱基序列的概率进行处理,得到最终的碱基序列,

所述第一卷积层中卷积核的大小为1×3,步长为1×2,输出通道为128,所述第二卷积层中卷积核的大小为1×3,步长为1×2,输出通道为128,所述BERT模块包含12层的Transformer,768维的Embedding隐藏层和12头的注意力机制层。

2.根据权利要求1所述的基于深度学习的nanopore测序数据碱基识别方法,其特征在于所述标记后的电信号数据特征表示为:其中,c表示测序数据,xc表示测序数据对应的特征,ω是卷积核的权重,其中参数k设置为3,i和j是序列初始位置,T是序列的长度,x表示累加。

3.根据权利要求2所述的基于深度学习的nanopore测序数据碱基识别方法,其特征在于所述BN层表示为:

其中,α、β和∈是模型学到的参数,xbn是卷积层输出的序列特征,E是计算期望的函数,Var是方差函数。

4.根据权利要求3所述的基于深度学习的nanopore测序数据碱基识别方法,其特征在于所述softmax函数表示为:其中,zi表示为第i个节点的输出值,C为分类类别的个数,e表示自然对数函数的底数,为一个数学常数,Zc表示第c个节点的输出值。

5.根据权利要求4所述的基于深度学习的nanopore测序数据碱基识别方法,其特征在于所述CTC解码模块具体执行如下步骤:针对BERT层输出的预测序列,首先使用beamsearch算法迭代生成候选碱基序列,beam宽度为3,然后对候选碱基进行打分,并去掉碱基序列中的空白字符和冗余字符,选取得分最高的碱基序列作为最终的预测结果,碱基序列存在空白字符的概率为:‑1

x是BERT层的输出序列,π表示所中间结果对应的路径,β (l)表示算法搜索过程中所有满足条件的路径,I为输出结果,P(I|x)表示序列中空白字符的概率,利用碱基序列空白字符概率表示CTC损失函数,等于最小化对数域‑ln(P(π|x)),CTC损失函数表示为:

其中,ln()表示自然对数。

6.根据权利要求1所述的基于深度学习的nanopore测序数据碱基识别方法,其特征在于所述步骤二中对50组原始数据进行碱基识别通过碱基识别工具Guppy进行。