知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13336804447 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13336804447

知嘟嘟经纪人

一种基于连续数字压缩编码的长数字实体抽取方法

￥41000

专利号： 2021102638055

申请人：重庆理工大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于连续数字压缩编码的长数字实体抽取方法，其特征在于，包括：S1，将实体词典中的实体信息融合到单个字符的表示中；

S2，对带噪音的长数字实体进行压缩编码和标注；

所述长数字实体为包含7个及以上连续数字字符的实体；

所述压缩编码包括长数字实体压缩编码方法：S2‑1，输入字符序列C＝[C1,C2,...,Cn]，Ci∈C,i＝1,2，...n，对应的标签序列L＝[L1L2...Ln]，阈值s；

S2‑2，temp用于临时存放连续数字串，初始化为空；

S2‑3，判断字符Ci是否是数字，若是，则将Ci放入temp；若否执行下一步骤；

S2‑4，如果temp的字符长度大于或者等于阈值s，则C_result中加入两个特殊字符；同时，将temp字符串中第一个字符和最后一个字符对应的标签依次加入L_result；如果temp的字符长度小于等于阈值s，则执行下一步骤；

S2‑5，将temp字符串中的所有字符复制到C_result，其对应的标签复制到L_result；

S2‑6，将当前第i个字符与其对应的标签复制到C_result与L_result中，并将temp重置为空；

S2‑7，判断i是否小于或者等于n，若是则跳转执行步骤S2‑4，若否则执行下一步骤；

S2‑8，输出新的字符序列C_result＝[C1C2...Cm]，以及对应的标签序列L_result＝[L1L2...Lm]；

所述标注包括带噪音标注的BMEOH标签体系，用于标注带噪音的长数字实体：判断训练集中的字符，若字符位于实体的起始位置则用B标签标注，若字符位于一个实体的中间位置则用M标签标注，若字符位于一个实体的结束位置则用E标签标注，若字符不属于任意一个实体则用O标签标注，若字符为噪音数据则用H标签标注；

经过标注，实体抽取任务就被进一步描述为预测每个字符的标签和实体类别的问题，而以上标注的长数字实体，则作为预测模型的训练数据；

S3，送入Bi‑LSTM+CRF模型进行实体识别训练，然后对长数字实体进行抽取，得到所需的命名实体。

2.根据权利要求1所述的一种基于连续数字压缩编码的长数字实体抽取方法，其特征在于，所述S1包括：

S1‑1，找到含有字符Ci的四类候选实体集SupB、SupM、SupE和SupS；

其中SupB是候选实体中字符Ci作为单词首字的词的集合，SupM是字符Ci作为单词中间字的词的集合，SupE是字符Ci作为末尾字的词的集合，SupS是字符Ci作为单独字的集合；

S1‑2，融合SupB、SupM、SupE和SupS中的实体信息，得到字符Ci的向量表示。

3.根据权利要求2所述的一种基于连续数字压缩编码的长数字实体抽取方法，其特征在于，所述S1‑1包括：

S1‑1‑1，令设置观察窗口大小size；

S1‑1‑2，以字符Ci为中心，以[Ci‑sizeCi‑size+1...Ci‑2Ci‑1CiCi+1Ci+2...Ci+size‑1Ci+size]为观察窗口，对窗口内文本分词，提取出所有包含字符Ci的词，构成候选实体集SUPC；其中Ci‑size表示第i‑size个字符，Ci‑size+1表示第i‑size+1个字符，Ci‑2表示第i‑2个字符，Ci‑1表示第i‑1个字符，Ci表示第i个字符，Ci+1表示第i+1个字符，Ci+2表示第i+2个字符，Ci+size‑1表示第i+size‑1个字符，Ci+size表示第i+size个字符；

S1‑1‑3，对于每一个候选实体集SUPC中的实体wj,k，如果wj,k满足(式1)，则SupB＝SupB∪{wj,k}；若不满足，执行下一步骤；

S1‑1‑4，如果wj,k满足(式2)，则SupM＝SupM∪{wj,k}；若不满足，执行下一步骤；

S1‑1‑5，如果wj,k满足(式3)，则SupE＝SupE∪{wj,k}；若不满足，执行下一步骤；

S1‑1‑6，如果wj,k满足(式4)，则SupS＝SupS∪{wj,k}；若不满足，执行下一步骤；

S1‑1‑7，结束；

令实体词典为L，wj,k是字符串[CjCj+1Cj+2...Ck‑1Ck]，则(式1)～(式4)如下：其中，表示存在；字符Ci，i＝1,2，...n，i是当前观测字符的下标，n为观测窗口的总字符数；j、k是观测窗口的起始下标和末尾下标；

将S1‑1‑3中所述的候选实体集SUPC中的实体wj,k分别按(式1)～(式4)加入集合SupB、SupM、SupE和SupS中，得到每个字符的候选实体集SupB、SupM、SupE和SupS后，用(式5)计算每个候选实体集的嵌入：

s w

其中，V (S)表示候选实体集S的嵌入，S∈{SupB,SupM,SupE,SupS}，e (w)表示词项w的嵌入，|·|表示集合中元素的个数；

由此得到每个字符的四个候选实体集的嵌入，将它们与字符本身的嵌入拼接，得到该字符融合了词典信息后的嵌入，如(式6)所示：s s s s s

e(SupB,SupM,SupE,SupS)＝[v(SupB)；v(SupM)；v(SupE)；v(SupS)], (式6)c c s

x←[x；e(SupB,SupM,SupE,SupS)]s s