欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021104605855
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2024-11-14
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于序列标注的文档级事件论元抽取方法,其特征在于,包括以下步骤:步骤1:将语料库中的文档语料进行实体识别处理,并针对文档识别出的实体获取Wikipedia先验知识;

步骤2:通过步骤1得到的先验知识提取每个实体的语义属性词,利用实体语义属性词得到词跨度语义增强嵌入表示;

步骤3:将步骤2得到的词跨度实体语义增强嵌入表示与预训练语言模型bert_base得到的上下文语义表示进行拼接,得到每个词的嵌入层词表示;

步骤4:将步骤3得到的嵌入层词表示输入到循环神经网络中,经过句子跨度和段落跨度的两种3层BiLSTM特征提取器,得到每个词的句子跨度和段落跨度的上下文词表示;

步骤5:将步骤4得到的两种跨度的上下文词表示分别输入到句子跨度和段落跨度的上下文注意力机制模块中,得到每个词在不同上下文跨度中的不平等特征表示;

步骤6:将步骤5中得到的句子跨度和段落跨度特征表示输入到门控注意力机制模块中进行特征融合,得到最终的文档多跨度上下文语义融合特征表示;

步骤7:将步骤6中得到的多跨度上下文语义融合特征表示作为CRF序列标注层的输入,采用BIO标注格式对事件论元及其角色类型进行标注,训练得到最优模型,最后针对语料库的测试集文档,利用训练好的抽取模型抽取出其中的事件论元;

所述步骤2中通过先验知识提取每个实体的语义属性词,利用实体语义属性词得到词跨度语义增强嵌入表示,具体包括:通过步骤1获取的先验知识语料,针对每个实体提取并筛选其实体语义词集,假设考虑每个实体有N语义类型词,实体e的语义类型词集合表示为D使用参数α来控制实体语义嵌入的权重,对于构成实体的每个词w步骤4中,每个词的句子跨度和段落跨度上下文表示具体方法是:首先建立两个3层的Bi-LSTM编码器,即BiLSTM句子跨度上下文语义表示提取,将段落中每个词的句子跨度上下文特征段落跨度上下文语义表示提取,将段落中每个词的段落上下文特征所述步骤5中,每个词在不同上下文跨度中的不平等特征表示具体方法是:通过步骤4得到其句子跨度的词上下文隐层表示

其中,u

与句子上下文注意力机制相似,针对从步骤4得到的段落跨度的词上下文隐层表示其中,u

2.根据权利要求1所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤1具体包括以下步骤:首先采用spaCy工具对文档进行实体识别,然后通过识别出的实体爬取Wikipedia与实体相关的先验知识。

3.根据权利要求2所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述通过识别出的实体爬取Wikipedia与实体相关的先验知识,具体包括将:采用爬虫技术爬取Wikipedia网站上与文档中实体相对应的解释性文章,取其第一段与实体进行映射作为先验知识语料。

4.根据权利要求1所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤3:将步骤2得到的词跨度实体语义增强嵌入表示与预训练语言模型bert_base得到的上下文语义表示进行拼接,得到每个词的嵌入层词表示,具体包括:对于每个词x

5.根据权利要求1所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤6中特征融合的具体步骤为:对于每个词x

g

其中W

采用g

其中

6.根据权利要求5所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤7中,序列标注的具体方法是:在文档级事件论元抽取任务中,采用CRF条件随机场以BIO的标注格式对文档中的事件论元进行标注,CRF考虑了相邻标签之间的依赖性,CRF将经过线性层的输出作为CRF的发射概率矩阵P,P由以上公式可以看出,每个词映射到标签的得分经由两部分决定,包括上层输出和CRF自带的转移矩阵,采用softmax计算归一化后的概率,公式为采用最大化对数似然函数优化目标函数,训练样本(x|y)的对数似然为在解码阶段,采用动态规划的Viterbi算法求最右路径,得到序列中对应标签的概率,最大概率对应的标签被认为是正确标签,概率公式为

7.根据权利要求6所述的一种基于序列标注的文档级事件论元抽取方法,其特征在于,所述步骤7中,抽取测试集文档的事件论元的具体方法是:首先通过分词器,将测试集文档转换为符号序列,然后利用训练好的事件论元抽取模型得到相应的BIO格式的标签序列对,通过得到的标签序列对还原测试集文档中对应的词,作为测试集文档的事件论元抽取结果。