欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 202111472663X
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2024-06-25
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多信息增强的中文命名实体识别方法,其特征在于,能够对文本内容进行处理,得到需要的专有名词,具体包括以下步骤:步骤1、采集用户需要识别的文本语句,通过自然语言处理工具spaCy为输入词添加词性标注,然后将词的词性信息转移到字符级别,将字符、词以及词性信息融合作为嵌入信息;

步骤2、构建一个基于多信息增强的中文命名实体识别网络,包括词性信息嵌入模块、自注意力机制模块、基于细节捕获层的前馈神经网络模块及CRF标签约束模块;

信息嵌入模块通过匹配预训练好的词表得到字符与词的嵌入向量表示,然后加上词性标注信息并将词性信息转移到字符级别表达,对于未登录词,这里对其进行随机初始化;

自注意力机制模块通过将嵌入信息以及基于嵌套实体矩阵的位置信息送入自注意力机制中得到最后的特征输入,其中位置信息增强部分采用了基于二叉树结构的嵌入实体位置信息编码与FLAT网络的位置信息编码相融合;自注意力机制模块通过多头注意力机制对嵌入信息进行编码,学习到输入词元间的长短距离的依赖,注意力机制的计算方法为:Att(A,V)=softmax(A)V

其中,i表示第i个词元,ij表示第i个词元和第j个词元的关系;Q、K、V为输入矩阵的不同线性变换,u、v为可学习的超参数,注意力机制中的位置信息编码模块R前馈神经网络模块通过利用线性层对于自注意力机制的输出进行特征映射,对自注意力机制得到的特征进行再学习,其中细节层替代了普通的残差结构,获得更加细节的特征信息;

CRF标签约束模块对标注序列内部的依赖或者约束进行建模,学习到了标签间的联系信息,最后输出预测结果;

步骤3、对基于多信息增强的中文命名实体识别网络神经网络进行训练,然后在训练完成的网络上对输入语句进行命名实体识别,得到需要的实体类型。