1.一种基于深度学习的轨道交通事件知识图谱构建方法,其特征在于,采用事件触发词词典匹配模式加人工标注方式构建轨道交通事件识别模型训练数据;采用BERT‑BiLSTM‑CRF算法训练规范事件识别模型,从轨道交通设计规范文本中自动抽取规范条目事件;采用word2vec模型,余弦相似度聚类,逻辑回归二分类模型来对事件识别模型输出的事件进行事件统一;采用snowball算法来构建事件关系模型的训练数据;采用BERT‑BiLSTM‑ATTENTION‑SOFTMAX算法训练关系识别模型,自动抽取事件之间的关系,形成轨道交通事件知识图谱;
具体包括以下步骤:
步骤1,对原始文本采用事件触发词词典匹配和人工标注方式,来构建事件识别模型的训练数据,所述步骤1中,事件由事件触发词和事件元素所组成;因事件触发词大多是具有固定的词汇,因此采用词典匹配的方式来加速人工标注,构建模型训练数据;词典的扩展可以借助同义词林;
步骤2,对轨道交通设计规范事件抽取训练集进行预处理,将训练集中的文本以规范条目划分,并对文本进行词性标注;
步骤3,将步骤2处理的文本使用BERT‑BiLSTM‑CRF算法训练轨道交通设计规范事件识别模型;所述步骤3中,使用BERT‑BiLSTM‑CRF算法训练事件识别模型,整个模型由三个部分组成,分别是BERT层,BiLSTM层,CRF层;BERT预训练模型用来获取包含规范的上下文特征信息的字向量,BiLSTM层用于特征提取,利用整个文本的序列信息,CRF层用来学习句子的约束条件,过滤错误的预测序列;
步骤4,对原始文本采用snowball算法,来构建事件关系训练数据,步骤4中,利用半监督snowball算法来构建事件关系识别模型训练集,snowball算法具体步骤如下:步骤4.1,人工标注少量的事件关系,形成事件关系表;每一种事件关系对于一个事件关系表;
步骤4.2,使用现有的事件关系表,匹配原文中包含事件关系表中的事件的原句,并生成模板;模板的格式为五元组形式,分别为
步骤4.3,对生成的模板采用聚类,将相似度大于阈值0.7的模板聚为一类,利用平均的方法生成新的模板,加入用来存储模板规则库;由步骤4.2可知模板的格式可记为E1,E2分别表示模板P的事件1类型和事件2类型,表示E1左边3个词汇长度的向量表示,表示E1,E2之间词汇的向量表示,表示E2右边三个词汇长度的向量表示,模板间的相似度计算,如下,模板1: 模板2: 若满足条件E1=E1'&&E2=E'2,即满足模板P1的事件1类型E1与模板P2的事件1类型E'1相同且模板P1的事件2类型E2与模板P2的事件2类型E'2相同,则模板P1与模板P2的相似度可由计算得,μ1μμ2 3为权重,因 对模板间相似度计算结果影响较大,可设置μ2>μ1>μ3;若不满足条件E1=E1'&&E2=E'2,则模板P1与模板P2的相似度可记为0;
步骤4.4,首先利用步骤3中训练的事件识别模型扫描原文本,识别出文本中的包含的事件类型,然后利用步骤4.3中生成的规则库中模板对原文本进行匹配,匹配得到的文本转换为模板的五元组形式;
步骤4.5,将步骤4.4生成的新模板与规则库中的模板进行相似度计算,相似度小于阈值0.7的舍弃,相似度大于阈值0.7的模板中的事件加入事件关系表中;
步骤4.6,重复执行步骤4.2~4.5,直至原文本处理结束;
步骤5,将步骤4生成的轨道交通设计规范事件关系抽取训练集进行预处理,将训练集中的文本以事件对形式划分;
步骤6,将步骤5处理的文本使用BERT‑BiLSTM‑ATTENTION‑SOFTMAX算法训练关系识别模型,所述步骤6中,使用BERT‑BiLSTM‑ATTENTION‑SOFTMAX算法训练关系识别模型;整个模型由四个部分组成,分别是BERT层,BiLSTM层,ATTENTION层,SOFTMAX层;BERT预训练模型用来获取包含规范的上下文特征信息的字向量,BiLSTM层用于特征提取,利用整个文本的序列信息,ATTENTION层用来计算注意力概率以突出关键词汇在文本中的重要程度,SOFTMAX层用来生成各种关系类别的概率,取最大的类别概率为模型预测类别;
步骤7,对轨道交通设计规范进行预处理,以规范条目划分;
步骤8,将步骤7预处理过的轨道交通规范文本输入步骤3生成的事件识别模型中,抽取规范中的事件,事件包含事件触发词和事件元素;
步骤9,将步骤8中识别出来的事件,进行事件统一;
步骤10,将步骤9中识别出来的事件,存入事件数据库中;
步骤11,将步骤9中识别出来的事件以“事件元素‑关系‑事件触发词”的三元组的形式存入图数据库;
步骤12,从步骤10中生成的事件数据库中取出事件,组成事件对,输入步骤6生成的事件关系识别模型中,抽取规范中事件间的关系;
步骤13,将步骤10中的事件对和步骤12中抽取出的事件关系以“事件触发词‑关系‑事件触发词”的三元组形式存入图数据库。
2.根据权利要求1所述的一种基于深度学习的轨道交通事件知识图谱构建方法,其特征在于,所述步骤9中,在规范文本中存在代指同一事件的文本,;为避免在事件数据库中会造成大量冗余信息;采用事件统一处理算法,事件统一处理算法具体步骤如下:步骤9.1,利用轨道交通原文本,训练word2vec模型;
步骤9.2,利用步骤9.1生成的word2vec模型,输入轨道交通事件,生成事件向量;
步骤9.3,利用余弦函数值计算事件之间的相似度,根据相似度值大于0.8的事件聚为一类;余弦函数如下所示:步骤9.4,将步骤9.3产生新的事件,全部事件两者任意组合,计算事件对间的相似度;
步骤9.5,将事件对与事件相似度输入到以训练好的逻辑回归二分类模型中,判别事件的相似;逻辑回归数学模型如下:步骤9.6,依据步骤9.5的分类结果,若事件间相似,则舍弃一个事件,若事件间不相似,则将两个事件都保存。