1.一种基于表示学习的医学知识图谱实体对齐方法,其特征在于,包括以下步骤:
S1、去除标准医学知识图谱K1和待对齐医学知识图谱K2中的公有实体,得到标准医学知识图谱K1的剩余实体E′1和待对齐医学知识图谱K2的剩余实体E′2;
S2、通过知识表示学习模型分别对标准医学知识图谱K1和待对齐医学知识图谱K2中所有的三元组T1和T2进行训练,得到剩余实体E′1中每个实体的嵌入向量和剩余实体E′2中每个实体的嵌入向量;
S3、利用余弦相似度函数计算得到剩余实体E′1中每个实体的嵌入向量和剩余实体E′2中每个实体的嵌入向量的相似度值,并根据所述相似度值得到剩余实体E′2中每个待对齐实体与剩余实体E′1中所有实体相似度值最高的前十个推荐实体;
S4、根据标准医学知识图谱K1的所有实体E1和待对齐医学知识图谱K2中的所有实体E2构造词根集,并利用词根集获取剩余实体E′2中待对齐实体的词根与所述前十个推荐实体的词根,并去除词根不相同的推荐实体;
S5、判断所述剩余实体E′2中待对齐实体所在的科室或部位是否与经删除不同词根后的推荐实体{e1,e2,...,em}所在的科室或部位相同,若是,则保留该推荐实体,否则,删除该推荐实体,并根据判断结果得到新的推荐实体{e1,e2,...,el},其中,m表示删除不同词根后的推荐实体数,l表示删除不同科室或部位后的推荐实体数;
S6、将剩余实体E′2中待对齐实体与步骤S5中新的推荐实体{e1,e2,...,el}进行标注,并找出新的推荐实体{e1,e2,...,el}与剩余实体E′2中待对齐实体指向相同的实体,从而完成医学知识图谱实体对齐。
2.根据权利要求1所述的基于表示学习的医学知识图谱实体对齐方法,其特征在于,所述步骤S3中相似度值的表达式如下:其中, 表示相似度值,表示剩余实体E′1中每个实体的嵌入向量, 表示剩
余实体E′2中每个实体的嵌入向量, 和 分别表示嵌入向量 和 的模。
3.根据权利要求1所述的基于表示学习的医学知识图谱实体对齐方法,其特征在于,所述步骤S4包括以下步骤:S401、根据标准医学知识图谱K1的所有实体E1和待对齐医学知识图谱K2中的所有实体E2构建词典W,W={W1,W2,...,Wn},并对Wi进行子串解析,其中,Wi表示词典中的某个词,i=1,
2,...,n,n表示E1和E2为的实体数量之和;
S402、将解析后的子串分别置于整个词典W中进行频数统计,并选取频数前3的子串作为词根;
S403、判断是否遍历完整个词典W,若是,则对选取的词根作去重处理,得到词根集WE,并进入步骤S404,否则,返回步骤S402;
S404、分别对剩余实体E′2中待对齐实体与其对应的剩余实体E′1中前十个推荐实体进行子串解析,并判断解析后的子串是否存在于词根集WE中,若是,则分别得到剩余实体E′1中前十个推荐实体的子串集{We11,We12,...,We110}和剩余实体E′2中待对齐实体的子串集We2,并进入步骤S405,否则,重复步骤S404,直至遍历完剩余实体E′2中所有子串和E′1中前十个推荐实体的子串;
S405、判断子串集{We11,We12,...,We110}与子串集We2中是否有相同的子串,若有,则保留生成该子串集的推荐实体,否则,删除该推荐实体,去除词根不相同的推荐实体,并根据判断结果得到新的推荐实体{e1,e2,...,em},并进入步骤S5,其中,m表示删除没有相同词根后的推荐实体数。
4.根据权利要求3所述的基于表示学习的医学知识图谱实体对齐方法,其特征在于,所述步骤S402中词根还包括:针对有频数相同时,选择长度最长的子串作为词根。
5.根据权利要求1所述的基于表示学习的医学知识图谱实体对齐方法,其特征在于,所述步骤S6具体为:将剩余实体E′2中每个待对齐实体在剩余实体E′1中的推荐实体{e1,e2,...,el}进行标注,并找出推荐实体{e1,e2,...,el}中与待对齐实体指向相同的实体,得到实体对(esim1,esim2),从而完成医学知识图谱的实体对齐,其中,esim1为剩余实体E′1中的推荐实体,esim2为剩余实体E′2中的待对齐实体。