1.一种基于连续数字压缩编码的长数字实体抽取方法,其特征在于,包括:S1,将实体词典中的实体信息融合到单个字符的表示中;
S2,对带噪音的长数字实体进行压缩编码和标注;
S3,送入Bi‑LSTM+CRF模型进行实体识别训练,然后对长数字实体进行抽取,得到所需的命名实体。
2.根据权利要求1所述的一种基于连续数字压缩编码的长数字实体抽取方法,其特征在于,所述S1包括:
S1‑1,找到含有字符Ci的四类候选实体集SupB、SupM、SupE和SupS;
其中SupB是候选实体中字符Ci作为单词首字的词的集合,SupM是字符Ci作为单词中间字的词的集合,SupE是字符Ci作为末尾字的词的集合,SupS是字符Ci作为单独字的集合;
S1‑2,融合SupB、SupM、SupE和SupS中的实体信息,得到字符Ci的向量表示。
3.根据权利要求2所述的一种基于连续数字压缩编码的长数字实体抽取方法,其特征在于,所述S1‑1包括:
S1‑1‑1,令 设置观察窗口大小
size;
S1‑1‑2,以字符Ci为中心,以[Ci‑size Ci‑size+1 ... Ci‑2 Ci‑1 Ci Ci+1 Ci+2 ... Ci+size‑1 Ci+size]为观察窗口,对窗口内文本分词,提取出所有包含字符Ci的词,构成候选实体集SUPC;其中Ci‑size表示第i_size个字符,Ci‑size+1表示第i_size+1个字符,Ci‑2表示第i‑2个字符,Ci‑1表示第i‑1个字符,Ci表示第i个字符,Ci+1表示第i+1个字符,Ci+2表示第i+2个字符,Ci+size‑1表示第i+size‑1个字符,Ci+size表示第i+size个字符;
S1‑1‑3,对于每一个候选实体集SUPC中的实体wj,k,如果wj,k满足(式1),则SupB=SupB∪{wj,k};若不满足,执行下一步骤;
S1‑1‑4,如果wj,k满足(式2),则SupM=SupM∪{wj,k};若不满足,执行下一步骤;
S1‑1‑5,如果wj,k满足(式3),则SupE=SupE∪{wj,k};若不满足,执行下一步骤;
S1‑1‑6,如果wj,k满足(式4),则SupS=SupS∪{wj,k};若不满足,执行下一步骤;
S1‑1‑7,结束;
令实体词典为L,wj,k是字符串[Cj Cj+1 Cj+2 ... Ck‑1 Ck],则(式1)~(式4)如下:其中,表示存在;字符Ci,i=1,2,...n,i是当前观测字符的下标,n为观测窗口的总字符数;j、k是观测窗口的起始下标和末尾下标;
将S1‑1‑3中所述的候选实体集SUPC中的实体wj,k分别按(式1)~(式4)加入集合SupB、SupM、SupE和SupS中,得到每个字符的候选实体集SupB、SupM、SupE和SupS后,用(式5)计算每个候选实体集的嵌入:
s w
其中,V (S)表示候选实体集S的嵌入,S∈{SupB,SupM,SupE,SupS},e (w)表示词项w的嵌入,|·|表示集合中元素的个数;
由此得到每个字符的四个候选实体集的嵌入,将它们与字符本身的嵌入拼接,得到该字符融合了词典信息后的嵌入,如(式6)所示:s s
其中←表示赋值,v (SupB)表示经候选实体集SupB压缩后的向量,v(SupM)表示经候选s s
实体集SupM压缩后的向量,v (SupE)表示经候选实体集SupE压缩后的向量,v (SupS)表示经s
候选实体集SupS压缩后的向量;e (SupB,SupM,SupE,SupS)表示将SupB、SupM、SupE、SupS四c
个集合的向量表示拼接起来;x 是字符的嵌入,将上面得到的词典信息和字符原本的嵌入融合在一起作为字符新的嵌入;之后将处理好的数据送入Bi‑LSTM+CRF模型进行训练。
4.根据权利要求1所述的一种基于连续数字压缩编码的长数字实体抽取方法,其特征在于,所述标注包括带噪音标注的BMEOH标签体系,用于标注带噪音的长数字实体:判断将训练集中字符,若位于实体的起始位置则用B标签标注,若字符位于一个实体的中间位置则用M标签标注,若字符位于一个实体的结束位置则用E标签标注,若字符不属于任意一个实体则用O标签标注,若字符为噪音数据用则用H标签标注;
经过标注,实体抽取任务就被进一步描述为预测每个字符的标签和实体类别的问题,而以上标注的序列,则作为预测模型的训练数据。
5.根据权利要求1所述的一种基于连续数字压缩编码的长数字实体抽取方法,其特征在于,所述压缩编码包括长数字实体压缩编码方法:S2‑1,输入字符序列C=[C1,C2,...,Cn],Ci∈C,i=1,2,...n,对应的标签序列L=[L1 L2 ... Ln],阈值s;
S2‑2,temp用于临时存放连续数字串,初始化为空;
S2‑3,判断字符Ci是否是数字,若是,则将Ci放入temp;若否执行下一步骤;
S2‑4,如果temp的字符长度大于或者等于阈值s,则C_result中加入两个特殊字符;同时,将temp字符串中第一个字符和最后一个字符对应的标签依次加入L_result;如果temp的字符长度小于等于阈值s,则执行下一步骤;
S2‑5,将temp字符串中的所有字符复制到C_result,其对应的标签复制到L_result;
S2‑6,将当前第i个字符与其对应的标签复制到C_result与L_result中,并将temp重置为空;
S2‑7,判断i是否小于或者等于n,若是则跳转执行步骤S2‑4,若否则执行下一步骤;
S2‑8,输出新的字符序列C_result=[C1 C2 ... Cm],以及对应的标签序列L_result=[L1 L2 ... Lm]。