1.一种抗菌肽筛选方法,其特征在于,所述方法包括:将已有抗菌肽打断为长度为4的标识序列,并建立抗菌肽标识序列在抗菌肽数据库中出现的频率分布矩阵;
将频率分布矩阵映射到蛋白序列上,根据比对次数高低建立目标蛋白的每个氨基酸的比对得分;
根据得分情况筛选和确定比对区域;
抽取比对区域中的蛋白序列,根据在抗菌肽数据库中标识序列出现的频率筛选出高得分抗菌肽比对区域;
所述将已有抗菌肽打断为长度为4的标识序列,并建立抗菌肽标识序列在抗菌肽数据库中出现的频率分布矩阵,包括:根据已知的抗菌肽序列,构建抗菌肽序列数据库;
将每条抗菌肽序列按照长度为4逐个氨基酸抽取作为标识序列,将所有标识序列存储在哈希数据结构中,key为标识序列本身,对应的value为标识序列出现的频次,得到抗菌肽标识序列在抗菌肽数据库中出现的频率分布矩阵;
所述将频率分布矩阵映射到蛋白序列上,根据比对次数高低建立目标蛋白的每个氨基酸的比对得分,包括:将长度为l的蛋白序列逐氨基酸分割为4长度的序列Subseq(i),按照第一个氨基酸Pi在蛋白序列的位置,初始化计数组Score(Pi,Pi+1,Pi+2,Pi+3);
判断序列Subseq(i)是否存在于哈希数据结构中;
若序列Subseq(i)存在于哈希数据结构中,则令计数组Score(Pi,Pi+1,Pi+2,Pi+3)加1;
若序列Subseq(i)不存在于哈希数据结构中,则进行下一序列Subseq(i+1)的比对;
所有的序列比对完后,得到所述蛋白序列的抗菌肽比对得分数组score(i)。
2.根据权利要求1所述的方法,其特征在于,所述根据得分情况筛选和确定比对区域,包括:从所述蛋白序列的抗菌肽比对得分数组的起始位置i开始初始化累计比对得分CS=0,衰减得分DS=0,累计总得分TS=0;
当score(i)为0时,令CS=CS+0,DS=DS‑0.5,TS=CS+DS;当score(i)大于等于1时,令CS=CS+1,DS=DS+0;
当累计总得分TS小于0时,初始化累计比对得分CS和衰减得分DS为0,记录当前位置为初始位置,并令结束位置为0,当score(i+1)的累计总得分TS大于0时,令结束位置加1;
抽取所述蛋白序列中初始位置到结束位置的区域,并去除该区域末端位点得分为0的部分,得到比对区域。
3.根据权利要求2所述的方法,其特征在于,所述抽取比对区域中的蛋白序列,根据在抗菌肽数据库中标识序列出现的频率筛选出高得分抗菌肽比对区域,包括:将比对区域中比对到的标识序列按照抗菌肽频率矩阵中的频次进行权重得分计算;
根据比对区域中标识序列的权重得分,将所有抽取到的抗菌肽序列区域抽取并排序得到高得分抗菌肽比对区域。
4.一种抗菌肽筛选系统,其特征在于,所述系统包括处理器,所述处理器配置为:将已有抗菌肽打断为长度为4的标识序列,并建立抗菌肽标识序列在抗菌肽数据库中出现的频率分布矩阵;
将频率分布矩阵映射到蛋白序列上,根据比对次数高低建立目标蛋白的每个氨基酸的比对得分;
根据得分情况筛选和确定比对区域;
抽取比对区域中的蛋白序列,根据在抗菌肽数据库中标识序列出现的频率筛选出高得分抗菌肽比对区域;
所述将已有抗菌肽打断为长度为4的标识序列,并建立抗菌肽标识序列在抗菌肽数据库中出现的频率分布矩阵,包括:根据已知的抗菌肽序列,构建抗菌肽序列数据库;
将每条抗菌肽序列按照长度为4逐个氨基酸抽取作为标识序列,将所有标识序列存储在哈希数据结构中,key为标识序列本身,对应的value为标识序列出现的频次,得到抗菌肽标识序列在抗菌肽数据库中出现的频率分布矩阵;
所述将频率分布矩阵映射到蛋白序列上,根据比对次数高低建立目标蛋白的每个氨基酸的比对得分,包括:将长度为l的蛋白序列逐氨基酸分割为4长度的序列Subseq(i),按照第一个氨基酸Pi在蛋白序列的位置,初始化计数组Score(Pi,Pi+1,Pi+2,Pi+3);
判断序列Subseq(i)是否存在于哈希数据结构中;
若序列Subseq(i)存在于哈希数据结构中,则令计数组Score(Pi,Pi+1,Pi+2,Pi+3)加1;
若序列Subseq(i)不存在于哈希数据结构中,则进行下一序列Subseq(i+1)的比对;
所有的序列比对完后,得到所述蛋白序列的抗菌肽比对得分数组score(i)。
5.根据权利要求4所述的系统,其特征在于,所述处理器被进一步配置为:从所述蛋白序列的抗菌肽比对得分数组的起始位置i开始初始化累计比对得分CS=0,衰减得分DS=0,累计总得分TS=0;
当score(i)为0时,令CS=CS+0,DS=DS‑0.5,TS=CS+DS;当score(i)大于等于1时,令CS=CS+1,DS=DS+0;
当累计总得分TS小于0时,初始化累计比对得分CS和衰减得分DS为0,记录当前位置为初始位置,并令结束位置为0,当score(i+1)的累计总得分TS大于0时,令结束位置加1;
抽取所述蛋白序列中初始位置到结束位置的区域,并去除该区域末端位点得分为0的部分,得到比对区域。
6.根据权利要求5所述的系统,其特征在于,所述处理器被进一步配置为:将比对区域中比对到的标识序列按照抗菌肽频率矩阵中的频次进行权重得分计算;
根据比对区域中标识序列的权重得分,将所有抽取到的抗菌肽序列区域抽取并排序得到高得分抗菌肽比对区域。