1.一种基于组学数据挖掘的“疾病—药物”关联平台,包括预测工具模块、出版物模块和对外服务模块,其中:
预测工具模块主要是利用Python编程语言与MySQL数据库建立连接并进行操作,通过数据清洗、高表达基因计算、关联分析步骤构建“疾病—药物”关联模型;主要包含2个分析工具,一个是疾病和药物关联分析工具,另一个是高表达基因分析工具;检索结果以两个表格进行呈现:一个表格显示检索疾病或药物的相关性评分;另一个表格显示命中结果中各种疾病或药物出现的频次;
出版物模块主要展示的是研究者利用所述平台数据发表的相关论文题录,即链接全文,在论文题录下方以标签的形式着重显示此论文的研究重点以及值得借鉴学习的方面;
对外服务模块主要为研究者提供专门的数据处理以及分析的服务,注册用户可以向所述平台上传问题,这些问题将统一分类汇总传输给相应的后台,后台处理给出解决方法后所述平台会及时反馈给用户;
所述关联平台其能够完成下述功能:
(1)获取系列Series描述信息,构建系列Series获取号(Accesion)字典:通过数据库自带的GUI接口下载全部的的Series描述信息,下载的内容包含后续程序开发所需要的序列号Accession;利用Python编写程序抽取Series描述信息中的Accession号,建立Series获取号字典,存储在Accession.csv文件中;
(2)获取Series基因表达信息:根据获取号Accesion推断出MINiML文件对应的网址,然后获取相应的url,下载MINiML文件;
(3)利用Python针对下载下来的MINiML压缩文件编写相应的解压缩程序,自动不间断的解压压缩文件;
(4)解压完成后,通过对解压得到的数据进行提取,得到同一个系列Series不同样本数据的来源信息,存储在group.txt文件中;并将不同样本数据中的基因表达值合并生成一个矩阵,存储在matrix.txt文件中;
(5)通过编写的程序对(4)得到的数据进行分析计算,得到上调高表达基因与下调低表达基因,分别存储在up.csv与down.csv文件中;计算分析,给出“...发现了**个上调基因,**个下调基因”的信息,计算结果会存储在up.csv与down.csv文件中;
(6)将(5)中得到的系列Series与(2)中的系列Series匹配,解压得到每一个相匹配的系列Series所对应的平台信息;然后选择平台Platform信息中的gene symbol信息,将gene symbol与(5)得到的数据进行匹配,匹配得到的数据分别存储在up_symbol.csv与down_symbol.csv文件中;
(7) 关联分析:通过疾病与药物基因表达数据的负相关计算预测出疾病与药物之间的潜在关联。
2.根据权利要求1所述的基于组学数据挖掘的“疾病—药物”关联平台,其特征在于:所述负相关计算是Jaccard相似系数算法:给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,对疾病的上调基因和药物的下调基因、疾病的下调基因和药物的上调分别做这个运算,最终计算出来的系数值用来预测相关性的强度,值越高相关性越强,预测出疾病与药物之间的潜在关联,如果疾病与药物是负相关关系就证明了是相互抑制的作用,反之亦然。