1.一种基于高阶接近性和矩阵补全算法的lncRNA‑疾病关联预测方法,其特征在于,包括以下步骤:
S1:计算lncRNA相似矩阵LS和疾病相似矩阵DS的高阶接近矩阵;
S2:获取疾病‑lncRNA邻接矩阵DL,所述疾病‑lncRNA邻接矩阵用于描述lncRNA‑疾病关联关系;
S3:构建一个异构性的疾病‑lncRNA关联矩阵,所述疾病‑lncRNA关联矩阵整合了疾病‑lncRNA邻接矩阵DL、lncRNA相似矩阵LS的高阶接近矩阵和疾病相似矩阵DS的高阶接近矩阵;
S4:采用矩阵补全法,在所述疾病‑lncRNA关联矩阵中预测lncRNA‑疾病的关联。
2.根据权利要求1所述的基于高阶接近性和矩阵补全算法的lncRNA‑疾病关联预测方法,其特征在于,步骤S1中lncRNA相似矩阵LS,具体为:从ArrayExpress下载lncRNA表达谱,通过RNA‑Seq技术生成;在前期研究的基础上,通过计算每个lncRNA对表达谱之间的spearman相关系数来表示lncRNA的表达相似性,用矩阵LS(li,lj)来描述lncRNA li和lncRNA lj的表达相似性,相似性在0到1之间;lncRNA li与lncRNA lj的表达相似性越高,分值越高。
3.根据权利要求1所述的基于高阶接近性和矩阵补全算法的lncRNA‑疾病关联预测方法,其特征在于,步骤S1中疾病相似矩阵DS,具体为:从美国国家医学图书馆MeSH下载网格描述后,引入一个基于有向无环图DAG的模型来描述疾病之间的语义相似性,有向无环图(DAG)可用来描述疾病d,即DAG(d)=(d,T(d),E(d)),其中T(d)为节点集,E(d)为边集,对于给定特定疾病d,其祖先节点q在DAG(d)中的贡献值定义如下具体为:
结合其祖先节点在DAG(d)中的贡献值,可以将疾病d的语义值描述为:如果两种疾病在DAG中有更多的共享节点,则可以认为两种疾病之间的语义相似性更高,使用语义相似矩阵DS(di,dj)来表示疾病di和疾病dj之间的语义相似度,定义为:
4.根据权利要求3所述的基于高阶接近性和矩阵补全算法的lncRNA‑疾病关联预测方法,其特征在于,步骤S1中计算疾病相似矩阵DS的高阶接近矩阵,具体为:在疾病相似矩阵DS的基础上构造q阶接近矩阵HD,以保持疾病语义相似矩阵的不同顺序邻近信息如下:
n
其中DS是DS的n阶接近度,y是权重参数且y≥0;
采用奇异值分解技术来提高数据质量:T
HD=UΣV
nd×nd nd×nd nd×nd其中U∈R 是左奇异向量矩阵,Σ∈R 是奇异值降序对角矩阵,V∈R 是一个右奇异向量矩阵;
然后通过保持k个最大奇异值来重建高阶邻近矩阵HD:其中Σk为k个奇异值矩阵,Uk和Vk是top‑k奇异值分别对应左、右奇异向量矩阵。
5.根据权利要求4所述的基于高阶接近性和矩阵补全算法的lncRNA‑疾病关联预测方法,其特征在于,所述lncRNA相似矩阵LS的高阶接近矩阵HL的计算方法与疾病相似矩阵DS的高阶接近矩阵HD的计算方法相同。
6.根据权利要求5所述的基于高阶接近性和矩阵补全算法的lncRNA‑疾病关联预测方法,其特征在于,步骤S2中获取疾病‑lncRNA邻接矩阵DL,具体为:从LncRNADisease数据库下载lncRNA‑疾病联系数据集,删除其中重复的lncRNA、疾病nd×nl
和非人类数据,用疾病‑lncRNA邻接矩阵DL∈R ,其中nd和nl分别是疾病的数量和lncRNA的数量,疾病‑lncRNA邻接矩阵DL定义如下:
7.根据权利要求6所述的基于高阶接近性和矩阵补全算法的lncRNA‑疾病关联预测方法,其特征在于,步骤S3中构建一个异构性的疾病‑lncRNA关联矩阵,具体定义为:
8.根据权利要求7所述的基于高阶接近性和矩阵补全算法的lncRNA‑疾病关联预测方法,其特征在于,步骤S4中矩阵补全法用于将疾病‑lncRNA关联矩阵T中DL值为0的元素。
9.根据权利要求8所述的基于高阶接近性和矩阵补全算法的lncRNA‑疾病关联预测方法,其特征在于,步骤S4中采用矩阵补全法,预测lncRNA‑疾病的关联,具体为:m×n m×n m×n
设Ω为观测项X∈R 的指标集,PΩ(X):R →R 是一个线性投影运算符:采用低秩矩阵补全算法,通过假设低秩矩阵X来推断缺失值,模型描述如下:s.t 0≤X≤1
其中ω,α是平衡迹范数和核范数的非负参数,使用0≤X≤1的约束来确保恢复的矩阵元素的值在0到1之间。
10.根据权利要求9所述的基于高阶接近性和矩阵补全算法的lncRNA‑疾病关联预测方法,其特征在于,步骤S4中使用交替方向的乘数法来转换模型进入待优化问题,引入变量矩阵Y,该模型可以优化为:
s.t X=Y,0≤Y≤1
相应地,对应于该方程的增广拉格朗日函数为:其中Z是标准迹内积,β>0是自适应罚参数,在第k次迭代中,要求交替更新Yk+1、Xk+1和Zk+1;
计算Yk+1:我们固定Xk和Zk,最小化Yk的 把 表示为PΩ的伴随算子,Yk+1更新如下:
计算Xk+1:我们固定Yk和Zk去计算Xk+1;
基于奇异值阈值算法,Xk+1表示如下:其中Sτ(.)是定义为 的奇异值软阈值算子,其中τ是收缩阈值,σd是矩阵R的第d个奇异值,而ud和vd分别是对应的左右奇异向量;
计算Zk+1:最后,Zk+1计算如下:Zk+1=Zk+γβ(Xk+1‑Yk+1)其中γ是非负学习率。