欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 202111374828X
申请人: 北京第一因科技有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-02-23
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种适用于多领域的中文命名实体识别方法,其特征在于,包括:获取待识别的实体数据;将待识别的实体数据输入到中文命名实体识别模型中,得到识别的结果,对识别的结果进行标记;

对中文命名实体识别模型进行训练的过程包括:S1:获取原始中文命名实体数据集,对该数据集中的数据进行领域分类处理;

S2:采用样本学习法对领域分类后的数据进行采样,得到训练集;

S3:将训练集中的数据输入到模型的共享编码表示层,得到输入数据中每个词的向量表示;

S4:将每个词向量表示输入到域分类器中,得到该数据的所属领域的概率分布;

S5:采用领域专家层提取每个词的向量表示的领域独有特征;公共专家层根据概率分布和词向量表示的领域独有特征提取词向量的公有领域特征;

S6:将领域独有特征和公有领域特征分别输入到对应的CRF层,得到实体命名结果;

S7:计算模型的损失函数,将训练集中的数据依次输入到模型中,不断调整模型的参数,当损失函数值最小时完成模型的训练。

2.根据权利要求1所述的一种适用于多领域的中文命名实体识别方法,其特征在于,对该数据集中的数据进行领域分类处理的过程包括:根据数据集中的数据来源将各个数据划分到不同的领域中,对每个领域设置命名实体标签空间和数据标签;对于数据集中的中尉数据进行特定的处理,该特定的处理包括删除所有非中文、非英文和非正常标点的特殊符号,将删掉特殊符号的数据过滤停用词和噪声,并根据实体库进行分词处理;采用BIO标注法对数据集中的标签进行编码处理,使得样本中的每一个字符对应一个标签。

3.根据权利要求1所述的一种适用于多领域的中文命名实体识别方法,其特征在于,采用共享编码表示层对输入数据进行向量表示的过程包括:共享编码表示层为双向门控循环单元,将该单元作为上下文语义的编码器;将输入数据的样本进行向量表示为X=(x1,x2,...,xm),将输入样本输入到编码器中进行编码处理,得到每个词的向量表示。

4.根据权利要求3所述的一种适用于多领域的中文命名实体识别方法,其特征在于,编码器对输入样本向量进行处理的公式为:zl=σUzxl+Rzhl‑1+bzrl=σUrxl+Rrhl‑1+brnl=tanh Uhxl+Rh rl*hl‑1+bhhl=zl*hl‑1+1‑zl*nl其中,zl表示更新门向量,σ表示激活函数Sigmoid,xl表示第l步输入,rl表示复位门向量,hl‑1表示l‑1时间步的隐藏状态,U,R,b分别表示编码器随机初始化的可学习的参数,nl表示新的门向量,tanh表示双曲正切函数,hl表示l时间步的隐藏状态。

5.根据权利要求1所述的一种适用于多领域的中文命名实体识别方法,其特征在于,采用域分类器对词向量表示进行处理的过程包括:S41:将隐藏层向量h输入到多层感知机MLP中提取域分类特征;得到域分类特征的公式为:

C=MLP(relu(h))

S42:将域分类特征输入到Softmax层中,得到所属领域概率分布Yd,公式为:其中,relu表示分段线性函数,MLP表示多层感知机网络, 表示属于第n个领域的概率值,softmax表示归一化函数。

6.根据权利要求1所述的一种适用于多领域的中文命名实体识别方法,其特征在于,采用领域专家层提取每个词的向量表示的领域独有特征的公式为:Fi=Experti(h)

其中,Fi表示词向量表示的领域独有特征,Experti表示特征抽取网络,h表示隐藏层向量。

7.根据权利要求1所述的一种适用于多领域的中文命名实体识别方法,其特征在于,公共专家层根据概率分布和词向量表示的领域独有特征提取词向量的公有领域特征的公式为:

其中,Fpublic表示词向量的公有领域特征,n表示已知数据中领域的数量,Fi表示词向量表示的领域独有特征, 表示词向量表示所属领域的概率分布。

8.根据权利要求1所述的一种适用于多领域的中文命名实体识别方法,其特征在于,将领域独有特征和公有领域特征分别输入到对应的CRF层进行处理的过程包括:S61:将领域独有特征和公有领域特征输出矩阵当作字符的标签分类概率P,,其中P的大小为m×k,m表示字的个数,k表示标签个数;

S62:根据训练集各领域标签空间中的标签依赖关系学习转移矩阵A,根据转移矩阵得到转移得分;

S63:根据转移得分和标签分类概率计算每条候选预测序列的得分:其中, 表示在标签空间中第i个标签到第i+1个标签的转移得分,Pj表示第j个字符的标签分类概率;

S64:使用Viterbi算法对每条候选预测序列的得分进行解码,将分数最大的预测序列作为预测结果。

9.根据权利要求1所述的一种适用于多领域的中文命名实体识别方法,其特征在于,模型的损失函数为:

其中,n表示已知数据中领域的数量,SDi表示第i个领域的得分,Fi表示词向量表示的领域独有特征,Li表示第i个领域的标签空间, 表示公有领域的得分,Fpublic表示词向量的公有领域特征,LAll表示所有领域标签空间之和,CrossEntropy表示交叉熵损失函数, 表示所属领域概率分布,Yd表示领域分类的真实标签。