欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2023112403727
申请人: 安徽农业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-04-29
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.水稻病虫害领域命名实体识别方法,其特征在于,包括以下步骤:

步骤S1、获取水稻病虫害领域多种实体的文本数据,并对获取的文本数据进行预处理;

步骤S2、对步骤1得到的部分文本数据按实体进行数据标注,得到标注有标签的标注文本数据,其余文本数据为未标注文本数据,并利用标注文本数据构建训练集;

步骤S3、构建识别模型,所述识别模型包括XLNet模型、BiLSTM模型、GCN模型、CRF模型;

并利用训练集中的文本数据对所述识别模型进行训练:

XLNet模型以文本数据作为输入,通过学习文本数据不同排序的序列特征信息实现双向预测的目标,对输入的水稻病虫害文本数据序列重排列,并最终生成并输出含有上下文信息的嵌入字符向量;

BiLSTM模型以XLNet模型输出的嵌入字符向量作为输入,由BiLSTM模型对XLNet模型输出的嵌入字符向量进行序列建模,以捕获序列中的上下文依赖关系,并生成每个位置的特征表示,由此得到并输出隐藏层状态即特征向量;

GCN模型以BiLSTM模型输出的特征向量,以及预先构建的水稻病虫害实体依存关系的邻接矩阵向量作为输入,借助依存句法分析,将依存关系的邻接矩阵向量与BI‑LSTM模型输出的特征向量进行拼接,以获取文本的全局特征并捕捉字符之间语义关系,并由GCN模型输出每个字节点的特征向量;

CRF模型以GCN模型输出的每个字节点的特征向量作为输入,由CRF模型进行标签解码,得到概率最大的预测实体标签;

由此,通过训练集对所述识别模型进行训练,得到基准模型;

步骤S4、利用步骤S3得到的基准模型预测步骤S2中的未标注文本数据,得到带有伪标签的文本数据;接着将带有伪标签的文本数据加入至所述训练集中完成训练集扩充,并用扩充后的训练集对所述基准模型进行训练,由此得到最终识别模型;

步骤S5、将待识别的水稻病虫害实体的文本数据输入至步骤S4得到的最终识别模型,由最终识别模型输出实体识别结果;

步骤S3中,水稻病虫害实体依存关系的邻接矩阵向量构建过程如下:首先构建水稻病虫害实体的依存关系图;然后将依存关系图转化为词级别邻接矩阵向量,词级别邻接矩阵向量中词语直接存在依赖关系则设为1,反之为0;最后将词级别邻接矩阵向量修改为字级别邻接矩阵向量,由此得到依存关系的邻接矩阵向量。

2.根据权利要求1所述的水稻病虫害领域命名实体识别方法,其特征在于,步骤S1中的实体包括水稻病虫害、病虫害基因、症状表型、受害部位。

3.根据权利要求1所述的水稻病虫害领域命名实体识别方法,其特征在于,步骤S1中的预处理包括数据清理、去噪和去冗余。

4.根据权利要求1所述的水稻病虫害领域命名实体识别方法,其特征在于,步骤S2中采用BIOES标注法进行标注。