1.一种针对突发事件的事件知识图谱构建方法,其特征在于,包括以下步骤:步骤1、收集突发事件新闻文档,对突发事件新闻文档进行数据预处理操作,得到新闻数据集D;
步骤2、将预处理后的新闻数据集D加入背景语料,预训练后得到词的分布式表示,即词的Embedding;
步骤3、对新闻数据集D中的每篇新闻,以语句为单位采用深度学习的序列标注方法进行事件抽取,所对应的事件采用主谓宾结构的三元组原子事件表示;
步骤4、根据事件模板的分布特点,针对事件表现形式多样化的问题,采用Bootstrapping方法进行三元组原子事件的规范化,修正不规范事件的形态,得到规范化原子事件;
步骤5、对出现在同一语句中的规范化原子事件对,采用基于深度学习的算法学习其上下文特征,判别规范化原子事件对间的时序关系;
步骤6、基于规范化原子事件和规范化原子事件对间的时序关系构建事件知识图谱,以规范化原子事件为结点,规范化原子事件对的时序关系为边,得到最后的事件知识图谱。
2.根据权利要求1所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤1对突发事件新闻文档进行数据预处理操作具体包括:利用现有的自然语言处理工具包,完成新闻语料清洗,并对每篇文档进行预处理。
3.根据权利要求1所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤3具体包括:
步骤31、令语句对应的词序列作为输入序列,表示为x={w1,w2,...,wn},以预训练后得到的Embedding作为词的输入向量wi,令词序列对应的预测标签集合为ye={ye1,ye2,...,yen},标签可选集合为{O,BSub,ISub,BPre,IPre,BObj,IObj},分别表示非事件主谓宾、事件主语开始词、事件谓语非开始词、事件谓语开始词、事件谓语非开始词、事件宾语开始词、事件宾语非开始词;
步骤32、经过神经网络隐层的训练提取句子特征,得到每个词对应位置i上的网络隐层输出pi;
步骤33、在输入层,综合考虑隐层输出pi和标签转移概率 预测输出每个词对应位置i上的标签yei,其预测概率为
步骤34、语句对应的整个词序列的最后得分为序列所有位置得分之和,即:对此得分进行Softmax归一化后,模型目标函数表示为 即优化得到语句对应词词序列的最优标签预测序列;
步骤35、对语句按上述模型优化后的结果进行解码,连续标签{BSub,ISub,…}对应的词序列为原子事件主语,连续标签{BPre,IPre,…}对应的词序列为原子事件谓语,连续标签{BObj,IObj,…}对应的词序列为原子事件宾语,标签O对应的词则为非原子事件主谓宾,从语句的第一个词依次往后扫描,连续的主谓宾合并得到一个三元组原子事件。
4.根据权利要求3所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤4具体包括:
步骤41、构造候选事件集合E,初始集合为所有三元组原子事件;
步骤42、统计候选事件集合E中各事件出现频率,以得到候选事件模板p';
步骤43、对所有候选事件模板p'进行置信度评估,超过阈值k的模板作为标准事件模板;若没有满足要求的标准事件模板产生,则事件规范化结束;每个候选事件模板p'采用下式进行置信度评估:
其中,Efreq(p')表示候选事件模板p'中的事件在语料中的出现概率,即事件概率,Dcover(p')则代表候选事件模板p'中的事件出现的文档概率,即文档概率;|E|和|D|分别代表事件集合和文档集合大小,|i:ei∈p'|表示候选事件模板p'中包含的事件数量,|j:p'∈dj|则表示候选事件模板p'出现于多少篇文件的统计量;事件概率度量了模板的事件覆盖度,而文档概率则度量了模板的文档覆盖度,模板得分最高的即为标准事件模板p,将该标准事件模板p加入标准事件模板集合P,该标准事件模板p中对应的事件加入规范化原子事件集合SE;
步骤44、根据标准事件模板p对候选事件集合E中的候选事件e进行修正,并更新候选事件集合E;
步骤45、重复上述步骤41‑44,直到满足步骤43中结束条件。
5.根据权利要求4所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤44按照以下规则对候选事件集合E中的候选事件e进行修正:若标准事件模板p为{subj1,pred1,obj1},其中subj1、pred1和obj1分别代表标准事件模板的主语、谓语和宾语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2}或{subj2,pred2,nil},其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失宾语,如果subj1==subj2并且pred1==pred2,则在原文档上下文找到与obj1相同或相似的词作为新的obj2,即候选事件更新为{subj2,pred2,obj1};
2)若候选事件e为{subj2,pred2,obj2}或{nil,pred2,obj2},其中subj2、pred2、obj2和nil分别表示候选事件的主语、谓语、宾语和缺失主语,如果pred1==pred2并且obj1==obj2,则在原文档上下文找到与subj1相同或相似的词作为新的subj2,即候选事件更新为{subj1,pred2,obj2};
3)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示候选事件的主语、谓语和缺失宾语,如果subj1==subj2并且obj1==pred2,则将候选事件更新为{subj2,pred1,pred2};
若标准事件模板p为{subj1,pred1,nil},其中subj1、pred1和nil分别代表事件模板的主语、谓语和缺失宾语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表示候选事件的主语、谓语和宾语,如果subj1==subj2并且pred1==pred2,则将候选事件更新为{subj2,pred2,nil};
2)若候选事件e为{nil,pred2,obj2},其中pred2、obj2和nil分别表示候选事件的谓语、宾语和缺失主语,如果pred1==pred2并且obj2==subj1,则将候选事件更新为{obj2,pred2,nil};
若标准事件模板p为{nil,pred1,obj1},其中pred1、obj1和nil分别代表事件模板谓语、宾语和缺失主语,扫描候选事件集合E中的每个候选事件e,按下列规则进行事件更新:
1)若候选事件e为{subj2,pred2,obj2},其中subj2、pred2和obj2分别表示候选事件的主语、谓语和宾语,如果obj1==obj2并且pred1==pred2,则将候选事件更新为{nil,pred2,obj2};
2)若候选事件e为{subj2,pred2,nil},其中subj2、pred2和nil分别表示候选事件的主语、谓语和缺失宾语,如果pred1==pred2并且obj1==subj2,则将候选事件更新为{nil,pred2,subj2};
将上述更新后的候选事件加入规范化原子事件集合SE,更新候选事件集合E。
6.根据权利要求5所述的针对突发事件的事件知识图谱构建方法,其特征在于,所述步骤5具体包括:
步骤5.1、给定一个事件对<e1,e2>,以事件论元的词表示作为输入,分别为subji,predi和obji;
步骤5.2、每个事件对的上下文由两个事件间隔开来,分三段表示,依次为e1上下文context1、中间上下文context2和e2上下文context3;
步骤5.3、分别通过3个LSTM神经网络得到三段上下文的语义表示h'context1,h'context2和h'context3;
步骤5.4、将三段上下文语义表示串接后送入Softmax层以预测事件对关系分类标签yr,标签可选集合为{After,Simultaneous,Unknown},模型目标函数可表示为:其中网络隐层输出h由三段上下文经各自LSTM习得输出串接而成:h=tanh(concat(h'context1;h'context2;h'context3))步骤5.5、对语句按上述模型优化后的结果进行解码,若标签yr为After,表示一个事件在另一个事件之后发生;若标签yr为Simultaneous,表示两个事件同时发生或者两个事件发生的时间段有重叠;若标签yr为Unknown,则表示两个事件间无时序关系或当前情况下无法判断。