欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2024106372425
申请人: 广东工业大学
专利类型:发明专利
专利状态:已下证
更新日期:2025-03-30
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于高阶扰动和灵活三元正则化的协同矩阵分解的LncRNA-疾病关联预测方法,其特征在于,包括具体步骤如下:S1:获取LncRNA-疾病的关联矩阵Z;

S2:基于已知的关联矩阵Z,计算出LncRNA的功能相似性矩阵Rs和疾病的语义相似性矩阵Ds;

S3:将基于已知关联矩阵计算的多阶关联矩阵作为高阶扰动添加到已知关联矩阵中;

S4:通过灵活三元正则项的相似性学习,获取相似性矩阵的全局非线性结构相似性信息;

S5:将高阶扰动和灵活三元正则化整合到协同矩阵分解中,迭代优化并剔除高阶扰动的干扰后,得到最终的预测得分矩阵;

所述S1中其LncRNA-疾病的关联矩阵Z的获取步骤具体如下:S11:第一个数据集来源于LncRNADisease2.0;

S12:为了便于对预测结果进行深入的案例分析,使用标准的MeSH疾病术语和更广泛的类别术语替代原始数据集的术语;

S13:对数据进行清洗,删除重复的条目和非人类LncRNA与疾病的条目,最终整理得到1690个经过生物实验确认过的lncRNA-疾病的关联对,涵盖447种lncRNA和218种疾病,将其作为实验的数据集,在此基础上,被定义的LncRNA和疾病的关联矩阵Z表达式如下:所述S2中疾病的语义相似性矩阵Ds的计算步骤具体如下:S21:基于Mesh数据库构建有向无环图(DAG(d)=(T(d),E(d))),其中T(d)表示包括疾病d自身在内的疾病祖先节点集合,并且E=(d)表示该疾病节点的祖先节点直接连接子节点的边集合;

S22:根据构建好的DAG评判疾病本身和其祖先节点对自己的贡献度,其方程表达式如下所示:其中疾病t∈T(d);

S23:疾病的语义值得分能够使用下面公式计算得到:S24:在此基础上,计算出疾病di和疾病dj之间的语义相似性,从而得到最后的疾病语义相似性矩阵Ds:所述S2中LncRNA的功能相似性矩阵Rs的计算步骤具体如下:S25:假设Di和Dj分别是与LncRNA的Ri和Rj相关的疾病组;

S26:LncRNA功能相似性矩阵定义为Rs;

S27:Ri和Rj之间的相似性值计算如下:其中|Di|表示Ri与疾病有关联的数量,|Dj|表示Rj与疾病有关联的数量,S(dm,Dj)是跟LncRNA的Ri有关联的疾病dm和跟LncRNA的Rj有关联的疾病集Dj之间的相似性;

所述S3中将基于已知关联矩阵计算的多阶关联矩阵作为高阶扰动添加到已知关联矩阵中的具体步骤如下:S31:基于已知关联矩阵构建高阶连接矩阵C:C=min(1,ZT·Z)

其中是已知关联矩阵,m和n分别代表了已知关联矩阵Z的行数和列数,ZT·Z就是代表了LncRNA与疾病能够发生交互的媒介,为了避免数值差异导致后续分析的误差,将所有大于1的值限制为1,从而构建一个高阶连接矩阵C,这个二值矩阵代表了LncRNA与疾病是否能够发生交互;

S32:基于高阶连接矩阵C构建不同阶的关联矩阵:Hyperconnection(Z,i)=min(1,Z·Ci-1)在数据集的实验中观察到在4阶关联矩阵之后出现的高阶关联矩阵基本保持不变,为此只采用2-4阶的高阶关联矩阵作为最终高阶关联矩阵S33:计算出高阶扰动矩阵Hop:s.t.W=0.1*rand(size(Z))其中⊙表示矩阵的哈达马积,随机值W表示高阶关联矩阵确定的位置可能发生交互的概率大小,在构建高阶关联矩阵时,仅在除原关联矩阵Z之外的确定位置,即的值不为0的位置添加随机值W,因为原始关联矩阵Z的有效信息在被保留的同时也要避免高阶关联矩阵处理对原矩阵产生影响,为了确保原始矩阵中关联信息的重要性得以保留,同时使设置的初始值与原矩阵的值有所区别,需将随机值W的范围设定在0到0.1之间,以确保其在减少对原矩阵干扰的同时能够有效反映关联的可能性;

因此,新的关联矩阵能够表示为:

Znew=Z+Hop;

所述S4中获取相似性矩阵的全局非线性结构相似性信息的具体步骤如下:S41:基于协同矩阵分解的原理,针对LncRNA与疾病的关联预测问题,设计协同矩阵分解的表达式:其中α1、α2和λ是正则项的超参数,和分别代表了LncRNA项和疾病项的分解低维度矩阵,i是子空间维度数,是表示Frobenius范数;

S42:在二元正交的两个变量中间添加额外的附加因子M和N,为相似性的学习保留全局非线性结构信息,因此,具有灵活三元正则化的矩阵分解的表达式如下:其中,和是附加到LncRNA和疾病相似性正交变量上的因子矩阵,σ是控制附加因子M和N的超参数,为了避免在最小化目标函数时出现复杂的非凸耦合项,引入惩罚的代理矩阵变量使其近似于UVT,因此,上面公式也能够表达为:其中是UVT的代理矩阵变量;

所述S5中将高阶扰动和灵活三元正则化整合到协同矩阵分解中的具体步骤如下:S511:基于高阶扰动和灵活三元正则化,提出的具有高阶扰动和灵活三元正则化的矩阵分解的具体目标函数最终表示如下:S512:为了避免在求解目标函数最小化问题时出现繁琐的非凸耦合项,同时减少因变量次方数过高而带来的优化难度,引入和两个变量,分别用于拟合UM和VN;

S513:最终,经过这些变换,上面的目标函数也能够表示为:同样地,β1以及β2也是一组超参数;

所述S5中迭代优化的具体步骤如下:S521:更新X

s.t.r∈(0,2),s>0,Y≥0其中,矩阵B和Y是梯度下降过程中用于过渡的临时矩阵变量,s是迭代过程的一个超参数,r是梯度步长,为了简化实验过程并避免引入过多的超参数,同时确保优化算法的收敛性,将r的取值设定为0.1;

S522:更新U

令:

则:

s.t.s>0,Up=Ut-1

Up代表U的上一个迭代数据Ut-1,E是一个单位矩阵;

S523:更新V

基于U的更新公式,能够类比推理得:s.t.s>0,Vp=Vt-1

同样地,Vp代表V的上一个迭代数据Vt-1;

S524:更新W

s.t.r∈(0,2),s>0,Y≥0其中,矩阵T和Y是梯度下降过程中用于过渡的临时矩阵变量;

S525:更新Q

令:

则:

Q=(β1UM+α1RsU)(β1E+α1UTU)-1;

S526:更新P

令:

则对因子矩阵P的偏导为:

基于Q的更新公式步骤同样能够类比推理得到:P=(β2VN+α2DsV)(β2E+α2VTV)-1;

S527:更新M

令:

则:

M=(β1UTU+σE)-1(β1UTQ);

S528:更新N

令:

则:

基于M的优化步骤,能够类比推理得:N=(β2VTV+σE)-1(β2VTP);

所述S5中最终的预测得分矩阵的具体得到步骤如下:S531:在迭代过程满足以下条件后:S532:计算得到近似的得分矩阵:S533:在剔除高阶扰动对结果的影响之后,得到最终的得分矩阵: