1.一种用于肝癌病理文本命名的实体识别方法,其特征在于,包括:实时获取肝癌病理文本信息,对该文本信息进行预处理;将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型,得到肝癌病理文本信息识别结果;根据识别结果对肝癌病理文本信息进行分类标记;肝癌病理文本命名实体模型包括:NER教师模型、十折模型以及命名实体抽取模型;
对肝癌病理文本命名实体模型进行训练的过程包括:S1:获取肝癌病理文本数据集,将该数据集输入到肝癌体系化标注知识库中,对肝癌病理文本数据集中的数据进行实体标注;
S2:将肝癌病理文本数据集输入到NER教师模型中,采用半监督‑自训练方式得到训练集的标签soft label;
S3:将进行实体标注的肝癌病理文本数据集输入到十折模型进行训练,得到增强去噪后的实体标注肝癌病理文本数据集;将增强后的实体标注肝癌病理文本数据集与训练集的标签soft label进行合并,得到训练数据集;
S4:将训练集中的数据输入到命名实体抽取模型中进行训练,得到识别结果;
S5:根据识别结果计算模型的损失函数,采用AdamW优化器、基于余弦退火的学习率调整算法以及快照集成学习对模型的参数进行调整,当损失函数的值达到最小时,完成模型的训练。
2.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,对肝癌病理文本数据集中的数据进行实体标注的过程包括:将已知的标注数据作为先验知识获取具有权威性的原发性肝癌规范化病理诊断指南,根据原发性肝癌规范化病理诊断指南划分出肝癌病理十大类实体,并整理出体系化十大类实体标注导图;每个导图中包含每个实体的不同描述、情况以及参考文献;根据十大类实体标注导图对未标注的肝癌病理文本编写自动化标注脚本,得到实体标注的数据。
3.根据权利要求2所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,在对肝癌病理文本数据集中的数据进行实体标注的过程中根据实体的描述和属性去除冗余和无用的实体,保留实体重叠的部分,以确定实体的识别的完整性和正确性。
4.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,进行实体标注的类别包括:“肿瘤位置”、“肿瘤组织学类型”、“肿瘤分化程度”、“肿瘤数量”、“肿瘤大小”、“微血管癌栓”、“卫星子灶”、“肝硬化程度”、“病理分期”、“包膜”;其中标记的类别为数据的第i个字段的一个字段位置mi。
5.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,采用半监督‑自训练方式得到训练集的标签soft label的过程包括:将具有原始标注数据的病理文本输入到BERT_CRF模型中进行训练验证,选取验证集上f1值最高的一个模型作为NER教师模型;采用NER教师模型对未标注肝癌病理文本数据进行预测,预测结果为soft标签;将得到soft标签的数据作为增强数据,将增强数据病理文本与原始标注数据的病理文本进行合并,得到训练集的标签soft label。
6.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,采用十折模型对实体标注的肝癌病理文本数据集进行去噪处理的过程包括:对已经标注的肝癌病理文本进行检查,判断是否存在漏标和误标情况;将漏标和误标的肝癌病理文本进行删除,将删除后的标注肝癌病理文本输入到十折交叉模型中,去除模型低置信度的结果,得到增强去噪后的实体标注肝癌病理文本数据集。
7.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,对命名实体抽取模型进行训练的过程包括:步骤1:获取训练集和测试集;
步骤2:对训练集进行处理,得到input_ids、input_mask、segment_ids、label_id这4个特征数据;其中input_ids表示每个中文字对应的词库id,input_mask表示是否有掩码,segment_ids表示句子标记的id,label_ids表示这条病理文本数据样本对应标签的id;
步骤3:设置迭代次数阈值;
步骤4:将特征数据输入到BERT+CRF模型中进行训练;
步骤5:在对BERT+CRF模型进行训练过程中,设置初始迭代次数,采用AdamW优化器、余弦退火算法以及快照集方法对模型的参数进行调整;每进行一次参数的调整,则迭代次数加1;
步骤6:判断当前的迭代次数是否大于设置的迭代次数阈值,若大于迭代次数阈值,则保存当前模型的参数,完成模型训练。
8.根据权利要求7所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,采用AdamW优化器、基于余弦退火的学习率调整算法以及快照集方法对模型的参数进行调整的过程包括:AdanW利用权重衰减和L2正则化对模型的参数进行优化;L2正则化用来减少过拟合,向损失函数添加由模型所有权重的平方和组成的惩罚项,并乘上特定的weight_decay超参数以控制惩罚力度;余弦退火算法是一种让模型逃离局部最小点的学习率调整算法,学习率每经过一定轮次后会增大,以跳出局部最优点,随着模型逐渐接近全局最优点,周期不断变大,使其能够到达最优点后模型不在进行训练;采用cos方式收敛到多个全局最小值,对所有的全局最小值进行集成。
9.根据权利要求1所述的一种用于肝癌病理文本命名的实体识别方法,其特征在于,模型的损失函数为CRF损失函数:
其中,PRealPath表示真实路径的分数,P1表示第一条路径的分数。