1.水稻病虫害领域命名实体识别方法,其特征在于,包括以下步骤:
步骤S1、获取水稻病虫害领域多种实体的文本数据,并对获取的文本数据进行预处理;
步骤S2、对步骤1得到的部分文本数据按实体进行数据标注,得到标注有标签的标注文本数据,其余文本数据为未标注文本数据,并利用标注文本数据构建训练集;
步骤S3、构建识别模型,所述识别模型包括XLNet模型、BiLSTM模型、GCN模型、CRF模型;
并利用训练集中的文本数据对所述识别模型进行训练:
XLNet模型以文本数据作为输入,通过学习文本数据不同排序的序列特征信息实现双向预测的目标,对输入的水稻病虫害文本数据序列重排列,并最终生成并输出含有上下文信息的嵌入字符向量;
BiLSTM模型以XLNet模型输出的嵌入字符向量作为输入,由BiLSTM模型对XLNet模型输出的嵌入字符向量进行序列建模,以捕获序列中的上下文依赖关系,并生成每个位置的特征表示,由此得到并输出隐藏层状态即特征向量;
GCN模型以BiLSTM模型输出的特征向量,以及预先构建的水稻病虫害实体依存关系的邻接矩阵向量作为输入,借助依存句法分析,将依存关系的邻接矩阵向量与BI‑LSTM模型输出的特征向量进行拼接,以获取文本的全局特征并捕捉字符之间语义关系,并由GCN模型输出每个字节点的特征向量;
CRF模型以GCN模型输出的每个字节点的特征向量作为输入,由CRF模型进行标签解码,得到概率最大的预测实体标签;
由此,通过训练集对所述识别模型进行训练,得到基准模型;
步骤S4、利用步骤S3得到的基准模型预测步骤S2中的未标注文本数据,得到带有伪标签的文本数据;接着将带有伪标签的文本数据加入至所述训练集中完成训练集扩充,并用扩充后的训练集对所述基准模型进行训练,由此得到最终识别模型;
步骤S5、将待识别的水稻病虫害实体的文本数据输入至步骤S4得到的最终识别模型,由最终识别模型输出实体识别结果;
步骤S3中,水稻病虫害实体依存关系的邻接矩阵向量构建过程如下:首先构建水稻病虫害实体的依存关系图;然后将依存关系图转化为词级别邻接矩阵向量,词级别邻接矩阵向量中词语直接存在依赖关系则设为1,反之为0;最后将词级别邻接矩阵向量修改为字级别邻接矩阵向量,由此得到依存关系的邻接矩阵向量。
2.根据权利要求1所述的水稻病虫害领域命名实体识别方法,其特征在于,步骤S1中的实体包括水稻病虫害、病虫害基因、症状表型、受害部位。
3.根据权利要求1所述的水稻病虫害领域命名实体识别方法,其特征在于,步骤S1中的预处理包括数据清理、去噪和去冗余。
4.根据权利要求1所述的水稻病虫害领域命名实体识别方法,其特征在于,步骤S2中采用BIOES标注法进行标注。