1.一种基于序列标注的文档级事件论元抽取方法,其特征在于,包括以下步骤:步骤1:将语料库中的文档语料进行实体识别处理,并针对文档识别出的实体获取Wikipedia先验知识;步骤2:通过步骤1得到的先验知识提取每个实体的语义属性词,利用实体语义属性词得到词跨度语义增强嵌入表示;步骤3:将步骤2得到的词跨度实体语义增强嵌入表示与预训练语言模型bert_base得到的上下文语义表示进行拼接,得到每个词的嵌入层词表示;步骤4:将步骤3得到的嵌入层词表示输入到循环神经网络中,经过句子跨度和段落跨度的两种3层BiLSTM特征提取器,得到每个词的句子跨度和段落跨度的上下文词表示;步骤5:将步骤4得到的两种跨度的上下文词表示分别输入到句子跨度和段落跨度的上下文注意力机制模块中,得到每个词在不同上下文跨度中的不平等特征表示;步骤6:将步骤5中得到的句子跨度和段落跨度特征表示输入到门控注意力机制模块中进行特征融合,得到最终的文档多跨度上下文语义融合特征表示;步骤7:将步骤6中得到的多跨度上下文语义融合特征表示作为CRF序列标注层的输入,采用BIO标注格式对事件论元及其角色类型进行标注,训练得到最优模型,最后针对语料库的测试集文档,利用训练好的抽取模型抽取出其中的事件论元。2.根据权利要求1所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤1具体包括以下步骤:首先采用spaCy工具对文档进行实体识别,然后通过识别出的实体爬取Wikipedia与实体相关的先验知识。3.根据权利要求2所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述通过识别出的实体爬取Wikipedia与实体相关的先验知识,具体包括将:采用爬虫技术爬取Wikipedia网站上与文档中实体相对应的解释性文章,取其第一段与实体进行映射作为先验知识语料。4.根据权利要求1‑3任一项所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤2中通过先验知识提取每个实体的语义属性词,利用实体语义属性词得到词跨度语义增强嵌入表示,具体包括:通过步骤1获取的先验知识语料,针对每个实体提取并筛选其实体语义词集,假设考虑每个实体有N语义类型词,实体e的语义类型词集合表示为De,si∈De是实体e的第i个的语义属性词,是实体语义属性词si的GloVe嵌入,然后生成实体e的实体语义嵌入ed:使用参数α来控制实体语义嵌入的权重,对于构成实体的每个词wj,是构成实体e的
词wj的GloVe嵌入,其词跨度语义增强嵌入表示es如下:
5.根据权利要求4所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤3:将步骤2得到的词跨度实体语义增强嵌入表示与预训练语言模型bert_base得到的上下文语义表示进行拼接,得到每个词的嵌入层词表示,具体包括:对于每个词xi,得到了其词跨度实体语义增强嵌入使用BERT‑base生成的句子跨度和段落跨度的上下文表示,对于每个词xi ,有其上下文表示最终的嵌入
层词表示由实体语义增强词嵌入和上下文词表示拼接而成,
6.根据权利要求5所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,步骤4中,每个词的句子跨度和段落跨度上下文表示具体方法是:首先建立两个3层的Bi‑LSTM编码器,即BiLSTMsent.和BiLSTMpara.,然后将MUC‑4数据集中所有文档划分为单个句子s1,s2,...,sn,为了构造段落跨度训练数据集,计算数据集中所有文档的平均段落数,记为m,从每个句子i开始,将m个连续的句子si到si+m‑1连接起来作为一个段落,形成长度为m的重叠的候选序列,序列1由{s1,s2,s3}组成,序列2由{s2,s3,s4}组成,以此类推;为了构造段落跨度开发数据集和测试数据集,只需将连续的m个句子按顺序分组,生成n/p个序列;句子跨度上下文语义表示提取,将段落中每个词的句子跨度上下文特征在解码阶段,采用动态规划的Viterbi算法求最右路径,得到序列中对应标签的概率,最大概率对应的标签被认为是正确标签,概率公式为
10.根据权利要求9所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤7中,抽取测试集文档的事件论元的具体方法是:首先通过分词器,将测试集文档转换为符号序列,然后利用训练好的事件论元抽取模型得到相应的BIO格式的标签序列对,通过得到的标签序列对还原测试集文档中对应的词,作为测试集文档的事件论元抽取结果。