1.一种结合知识图谱和文本信息的相关公司挖掘方法,其特征在于结合知识图谱和文本信息的相关公司挖掘包括有:
深度学习关系抽取模块:通过样本接口从样本库中提取公司的相关文本输入预训练的end‑to‑end神经网络模型,输出文本中所有实体及相关关系的三元组;
知识库关系提取模块:提取公司间特殊实体的相关关系,当作知识图谱特殊的边参与到PRA的计算中;
PRA训练模块:在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为
1;若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score,最终得到不同终点对应的所有路径的score;然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;每种关系单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;
PRA预测模块:输入公司A和公司B通过PRA模型后通过计算score会得到一条路径;将这条路径与训练时学习的规则进行比对,判断这条路径属于哪一种关系类型;由于PRA训练模块已经完成了根据路径进行关系推理的过程,因此在预测时直接输出推理结果;若给出公司A及关系R,则在模型中根据PRA训练模块中的关系参数找到对应的训练好的权重分布,并将所有与A有关的公司输入模型,最终得分最高的公司与A存在关系R的概率最高;
模型库管理模块:在deep‑learning抽取实体及实体关系三元组时,从模型库中导入end‑to‑end的神经网络模型;PRA训练模块中训练好的PRA模型也及时存入模型库,在预测的时候调取;模型库中有针对不同领域训练好的深度学习模型集合,调取不同的end‑to‑end模型;训练的PRA模型也及时更新;
用户反馈模块:对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后进行纠错,再将纠错后的公司关系重新输入model进行训练,这样形成一个model迭代的过程;
结合知识图谱和文本信息的相关公司挖掘方法是:上述六个模块中,深度学习关系抽取模块和知识库关系提取模块由模型库管理模块导入,并作为整个模型的输入,放入PRA模块进行训练及预测,预测的结果进入用户反馈模块进行用户纠错反馈。
2.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,end‑to‑end模型采用了LSTM‑RC的联合模型,不同于流水线式的命名实体识别‑关系抽取模型,采用参数共享,命名实体识别和关系抽取之间的联系信息,end‑to‑end即得到实体关系三元组。
3.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,在用PRA计算两个公司的之间的关系时,两个公司的实体之间也有关系,这些关系连接起来形成一条A公司通往B公司的路径,此时将所有出现的路径综合考虑;对路径的知识表示,即得到两个公司的直接关系,就是关系推理的过程;而直接关系又是通过deep‑learning抽取出来;因此,将deep‑learning抽取出来的各个关系作为各个权重分布的label,将各个路径所对应的短路径作为特征,训练特征的权重分布,即得到各个关系种类的PRA训练模型;每个关系种类对应一个权重分布;
输入公司A和关系,在知识图谱中得到所有与A存在这种关系的公司B,以公司A为起点,通过PRA计算,从A公司随机游走,通过限定集中的实体,会产生游走路径,将每一段路径其乘以对应的θ,得每条路径的score,score的高低代表了关系的紧密程度,按score的排序输出所有与A有关的公司B。
4.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,对新输入的公司A’和B’,要预测它们之间的关系,把其对应在知识图谱中的限定集及文本输入训练好的PRA模型,得到最终的path,将其与PRA训练模块中学到的规则进行比较,找到其对应的关系类别,即为公司A’和B’的关系;当输入公司A和关系类型预测与A存在关系的公司B时,通过PRA模型后得到所有和A有关的公司之间的路径,按照得分给目标公司排序来确定关系强弱。
5.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,模型库有深度学习模型,用于应对不同领域,不同要求的关系抽取;同时也保存训练的PRA模型;如果用户反馈模块有更新,重新训练模型,则要将后来训练的模型覆盖之前训练的PRA模型。
6.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于,对于预测的公司关系通过用户反馈接口接受用户的反馈;如果预测错误,管理员审核后进行纠错,再将纠错后的公司关系重新输入model进行训练;这样形成一个model迭代的过程,能进一步提高预测的准确率。
7.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于深度学习关系抽取模块:通过样本接口从样本库中提取公司的相关文本输入预训练的end‑to‑end神经网络模型,输出文本中所有实体及相关关系的三元组;其中,end‑to‑end模型采用了LSTM‑RC的联合模型,不同于流水线式的命名实体识别‑关系抽取模型,采用了参数共享,命名实体识别和关系抽取之间的联系信息。
8.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于知识库关系提取模块:提取公司间特殊实体的关系,当作知识图谱特殊的边参与到PRA的计算中。
9.根据权利要求1所述的结合知识图谱和文本信息的相关公司挖掘方法,其特征在于PRA训练模块:在起始点公司A处,遍历限定集中的每一个实体,若存在关系,则标记为1,若不存在,则标记为0;这样从A开始,就产生了一条短路径,然后将其与对应的权重θ相乘,并将起点和终点相同的路径得分相加,得到一个score,最终得到不同终点对应的所有路径的score;然后用深度学习抽取的公司间的关系作为PRA训练时的标签,对路径进行人工划分,作为对公司间潜在关系的推理,最终得到一个公司关系的分类模型;每种关系需要单独训练一个PRA路径的权重分布,然后将各个关系作为参数放入模型;简言之,通过PRA计算得到PRA路径,利用PRA路径及标签的训练得到PRA模型。