欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020110354563
申请人: 东北林业大学
专利类型:发明专利
专利状态:已下证
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.基于网络表示学习的计算疾病相似度系统,其特征在于所述系统包括:DisGeNet数据集、GeneOntlogy数据集、HumanNet网络、信息融合模块、网络嵌入模块、疾病相似度计算模块;

所述DisGeNet数据集用于存储基因和疾病之间的关系;

所述GeneOntlogy数据集用于存储Go_term之间的关系以及Go_term和基因之间的关系;

所述HumanNet网络用于存储基因之间的关系;

所述信息融合模块,用于将基因相似度矩阵进行拉普拉斯平滑得到矩阵R,利用矩阵R计算两个Go_term注释的基因集之间相似度,利用Go_term注释的基因集之间相似度计算两个Go_term之间的相似度,利用两个Go_term之间的相似度获得基因之间的相似度,其具体过程为:

步骤二一、将HumanNet网络中的基因相似度矩阵进行拉普拉斯平滑:其中

其中,R为拉普拉斯平滑后的相似度矩阵,lambda是拉普拉斯平滑的参数,sum是HumanNet中所有基因对相似性的总和,N是基因的数量,b是用于将值规格化为(0,1)区间的值的扩展因子,s[i][j]是i,j的相似度矩阵,gi和gj表示疾病基因;

步骤二二、计算两个Go_term之间的相似度,其具体过程为:步骤二二一、结合来自HumanNet和GO_term的信息计算两个GO_term注释的基因集之间的相似度:

D(t1,t2)是两个Go_term注释的基因集之间的相似度,t1、t2是两个GO_term,G1、G2是t1、t2对应的基因集,dij=1‑R[i][j]是两个基因之间的距离,|g1∪G2|是与t1、t2两个GO_term相关的两个基因的集合G1、G2并集的基因数;

步骤二二二、计算两个Go‑term之间的相似度:其中,

2 2

h(t1,t2)=D(t1,t2) *|G|+(1‑D(t1,t2))*max(|G1|,|G2|)其中,p是距离t1、t2最近的公共父节点,Gp是p和t1、t2子节点注释的基因集,G是根节点和t1、t2子节点注释的基因集,f′(t1,t2,p)是t1、t2、p基于路径的相似度,h(t1,t2)是t1、t2基于公共父节点的相似度, 是t1注释的基因集、t2注释的基因集、t1和t2的共同亲本p注释的基因集三个基因集并集的基因数目;

步骤二三、计算基因之间的相似度:根据步骤二二获得的Go_term之间的相似度,获得基因之间的相似度:其中,

其中,S(·,)表示两个Go‑term之间的相似度,y表示i或j,t1、t2是两个GO_term;

基于z‑score和给定的GO_term,可以从Tj获得两个集合:如果|T′th|>|T′tl|,那么T′j=T′th,否则T′j=T′tl;

其中 是相似性标准分数,Ti和Tj分别是gi和gj注释的术语集,|Ti|+|Tj|是Ti和Tj中基因数的和,T′j是Tj中部分Go_term的集合,T′i是Ti中部分Go_term语句的集合,所述的注释的术语集是与基因相关的Go_term的集合;

所述网络嵌入模块,基于基因之间的相似度将每个基因转化为向量形式,其具体过程为:

步骤三一、对于每条有向边(i,j)从基因vi到基因vj之间的联合概率为:其中 为基因vi的作为起始节点时的向量表示, 为基因vj作为终止节点时的向量表示,T表示向量的转置,其中V是网络中顶点的总数;

步骤三二、在网络结构中vi、vj的经验值定义为:其中,wij表示GenSim(gi,gj),d′i是vi所有出度的和;

步骤三三、调整基因的向量表示使p2、 之间的差异最小化,即使目标函数最小化,其中λi为i的权重,d1(·)表示 和p2的相对熵;

所述疾病相似度计算模块,基于基因的向量表示和疾病相关基因数据集DisGeNET将疾病相关基因融合,得到疾病的向量表示,利用疾病向量表示度量疾病的相似性;

所述Go_term为基因本体的数据集;

所述Go_term注释的基因集是与Go_term相关基因集的集合。

2.根据权利要求1所述的基于网络表示学习的计算疾病相似度系统,其特征在于:还包括基因与疾病预测模块:

所述基因与疾病预测模块,实现基于基因的向量表示,结合MLP模型,对基因与疾病之间的关系进行预测的功能;

基于信息融合模块、网络嵌入模块的计算获得基因的向量表示,基因与疾病预测模块将基因的向量表示结合MLP模型,通过训练可选择与任一疾病匹配,输出基因与疾病的相关概率。

3.根据权利要求2所述的基于网络表示学习的计算疾病相似度系统,其特征在于:步骤二三中

4.根据权利要求3所述的基于网络表示学习的计算疾病相似度系统,其特征在于:步骤三三中d1(·)使用KL散度计算。

5.根据权利要求4所述的基于网络表示学习的计算疾病相似度系统,其特征在于:所述疾病相似度计算模块,基于基因的向量表示和疾病相关基因数据集DisGeNET将疾病相关基因融合,采用average pooling的方法得到疾病的向量表示,用两个疾病向量的余弦相似度表示两个疾病的相似度。

6.根据权利要求5所述的基于网络表示学习的计算疾病相似度系统,其特征在于:所述基因与疾病预测模块,实现基于基因的向量表示,结合MLP模型,对基因与疾病之间的关系进行预测的功能具体过程为:

本系统使用了四层的MLP感知器,并使用梯度下降的方法更新参数;

其中,四层感知器为:输入层+隐含层+隐含层+输出层,四个层次整合为:f(x)=softmax(b2+W2(sigmoid(W1X+b1)))其中,W1是权重,b1是偏置,sigmoid(W1X+b1)是第一层隐含层的输出,softmax(W2X1+b2)是输出层的输出,f为softmax函数,输入为基因的向量表示,输出为与基因相关疾病的概率。