1.简历命名实体识别方法,其特征是,包括:获取待处理的简历;
对待处理的简历进行预处理;
将预处理后的简历,与自定义实体字典库中的实体进行逐一匹配,得到匹配成功的第一预测命名实体集合;
将预处理后的简历,输入到训练后的简历命名实体识别模型中,得到第二预测命名实体集合;简历命名实体识别模型,包括:彼此连接的BiLSTM模型和条件随机场模型CRF;
对第一预测命名实体集合和第二预测命名实体集合取并集,得到合并后的预测命名实体集合;将合并后的预测命名实体集合中的命名实体,作为待处理简历的最终命名实体识别结果;
基于待处理简历的最终命名实体识别结果,生成知识图谱。
2.如权利要求1所述的简历命名实体识别方法,其特征是,进一步地,所述方法还包括:对第一预测命名实体集合和第二预测命名实体集合取交集,得到第三预测命名实体集合;
对第二预测命名实体集合减去第三预测命名实体集合,得到第四预测命名实体集合;
将第四预测命名实体集合中的命名实体作为新增命名实体补充到自定义实体字典库中;
补充实体字典库的实体类型及实体关系,将同类实体映射到父层属性,逐渐形成完备的信息聚类。
3.如权利要求1所述的简历命名实体识别方法,其特征是,对待处理的简历进行预处理;具体包括:
对待处理简历采用正则表达式获取内容;
对采用正则表达式获取的内容,去除标点符号和特殊符号;
对去除标点符号和特殊符号的内容,进行jieba中文分词,得到分词后的词汇。
4.如权利要求1所述的简历命名实体识别方法,其特征是,将预处理后的简历,与自定义实体字典库中的实体进行逐一匹配,得到匹配成功的第一预测命名实体集合;具体包括:计算预处理后的简历的实体与自定义实体字典库中的实体之间的文本相似度;
将文本相似度与设定阈值进行比较,若文本相似度大于设定阈值,则表示匹配成功;如果文本相似度小于设定阈值,则表示匹配失败。
5.如权利要求1所述的简历命名实体识别方法,其特征是,训练后的简历命名实体识别模型;训练步骤包括:
构建训练集;所述训练集为已知实体分类标签的简历命名实体数字化向量;
将训练集,输入到简历命名实体识别模型中,对模型进行迭代训练;
判断模型输出精度是否达到设定要求,如果是,就停止训练对训练后的模型参数进行保存;如果否,就继续训练。
6.如权利要求1所述的简历命名实体识别方法,其特征是,构建训练集;具体包括:获取若干个简历;
对每个简历中的文本数据进行去除标点符号处理、去除不可见字符处理和根据句尾标点符号将文本数据切割成对应的句子;句尾标点符号,包括:句号、问号和惊叹号;
对处理后的文本数据进行标签标引处理,采用BIO标注法对文本数据中每个句子的每个字进行标签标引;
对标签标引处理后的文本数据进行数字化处理。
7.如权利要求1所述的简历命名实体识别方法,其特征是,对处理后的文本数据进行标签标引处理,采用BIO标注法对文本数据中每个句子的每个字进行标签标引;其中,句子中的字和标签都是一一对应的,标签用于表示字在句子中的成分,用BIO标注法表示:B表示实体名词的开头;I表示实体名词的内部;O表示当前字不属于任何类型;
或者,
基于命名实体识别结果,生成知识图谱;具体包括:根据实体类型建立知识图谱节点类型;
添加节点并建立此节点与应聘者的关系。
8.简历命名实体识别系统,其特征是,包括:获取模块,其被配置为:获取待处理的简历;
预处理模块,其被配置为:对待处理的简历进行预处理;
匹配模块,其被配置为:将预处理后的简历,与自定义实体字典库中的实体进行逐一匹配,得到匹配成功的第一预测命名实体集合;
预测模块,其被配置为:将预处理后的简历,输入到训练后的简历命名实体识别模型中,得到第二预测命名实体集合;简历命名实体识别模型,包括:彼此连接的BiLSTM模型和条件随机场模型CRF;
合并模块,其被配置为:对第一预测命名实体集合和第二预测命名实体集合取并集,得到合并后的预测命名实体集合;将合并后的预测命名实体集合中的命名实体,作为待处理简历的最终命名实体识别结果;
输出模块,其被配置为:基于待处理简历的最终命名实体识别结果,生成知识图谱。
9.一种电子设备,其特征是,包括:一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序;其中,处理器与存储器连接,上述一个或多个计算机程序被存储在存储器中,当电子设备运行时,该处理器执行该存储器存储的一个或多个计算机程序,以使电子设备执行上述权利要求1‑7任一项所述的方法。
10.一种计算机可读存储介质,其特征是,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1‑7任一项所述的方法。