欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022112602764
申请人: 芽米科技(广州)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-08-01
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于大数据的细粒度商品命名实体识别方法,其特征在于,包括以下步骤:

S1:获取有标注的商品信息数据和无标注的商品信息数据,根据商品数据的标注信息将获取的商品数据划分为无标注商品数据集和已标注商品数据集;

S2:将无标注商品数据集中的商品数据输入NEZHA模型进行增量训练,得到预训练模型M;

对无标注商品数据集使用动态遮蔽策略,将无标注商品数据集复制五份,将复制出的数据集中的文本数据输入NEZHA模型进行数据迭代,字词有50%的概率会被选中,当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,选中的字词中有80%会使用[MASK]进行遮蔽,10%是随机挑选一个词来代替[MASK],10%的概率会保持不变,得到新的遮蔽文本,重复上述过程,直到NEZHA模型不再生成新的遮蔽文本,得到当前预训练模型M;

S3:建立GPNER模型,所述GPNER模型包括:文本处理层、编码层、特征融合层、卷积层、实体边界层、实体分类层;

S4:将待进行实体命名识别的商品文本数据输入文本处理层,融合文本长度和文本中的实体个数信息;

S5:编码层对文本中的实体个数采用[Mask]进行掩盖,并通过预训练模型M进行编码,得到文本的隐藏层状态向量,并在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast;

S6:特征融合层将已标注商品数据集中的商品数据文本的词组信息融入词语向量表征hlast,得到特征融合向量hmerge;

特征融合层根据已标注商品数据集的标注信息的词组构建字典,按照词组的字典大小初始化一个200维的词向量,对于每一个输入字符,使用字典匹配该字符作为B开始、I中间、E结束三种位置类型对应的词,根据匹配到的词语,在初始化的200维词向量中查找得到对应的匹配词语向量hgaz,针对BIE三个位置,构建三个不同的图神经网络GAT1、GAT2、GAT3,B开始位置的词向量进入GAT1网络,提取当前开始位置的词组与它前后开始位置词组之间的关系,得到GAT1的邻接矩阵,I中间位置的词向量进入GAT2网络,捕捉当前词组字符之间的关系,得到GAT2的邻接矩阵,E结束位置的词向量进入GAT3网络,捕捉结束词组之间以及当前结束词组与开头结尾字符之间的关系,得到GAT3的邻接矩阵,将匹配的词语向量hgaz与词语向量表征hlast进行拼接得到拼接向量通过拼接与三个网络的邻接矩阵计算邻接矩阵中节点与节点之间的重要性系数得到重要性系数矩阵α,再将重要性系数矩阵中的重要性系数与相乘得到三个神经网络的输出,将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge;

S7:将特征融合向量hmerge输入卷积层的三层卷积网络,根据感受野rn*rn学习不同rn级别的片段信息来获取商品标题实体内部的关联特征,并将每一层的关联特征与特征融合向量hmerge进行拼接,得到商品的词语向量hcnn;

S8:实体边界层采用GlobalPointer解码方法将商品的词语向量hcnn线性变换为两个序列向量qα、kα,根据序列向量qα、kα利用实体分数计算函数计算文本中每一个字符的实体分数sα(i,j),当sα(i,j)>0时,句子文本[i,j]为实体片段,得到商品实体边界i和j;

S9:实体分类层挑选文本中实体分数大于0的位置上的词语向量hcnn通过全连接层进行m类分类,得到商品实体的种类。

2.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,当一个字被选中的同时,策略选取与这个字左右相关的n个词进行遮蔽,表示为:其中,ni表示遮蔽文本的长度,p(ni)为ni遮蔽长度被选中的概率,e表示自然底数,λ表示遮蔽长度均值,

3.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,融合文本长度和文本中的实体个数信息,具体包括:统计一条文本的长度,在模版“文本中有x个字”中填入统计的文本长度信息,拼接到文本后面,统计一条文本中拥有的实体个数,在模版“x种实体在文本中”中填入统计的实体个数信息,拼接在文本的最后面,得到输入编码层的文本为[文本中有x个字][具体文本][x个实体在文本中]。

4.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,在隐藏层状态向量的每个词位置上分别加上[CLS]的类别向量信息,得到词语向量表征hlast,表示为:hlast=Sum(hbert,Expand(hcls))

其中,hbert表示隐藏层状态向量,hcls表示[CLS]的类别向量信息,Expand(  )表示扩展向量第一维度的函数,Sum(  )表示根据向量的第一维度进行按位相加操作的求和函数。

5.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,重要性系数矩阵α,表示为:α=Softmax(MASK(Adj,e))

其中,Softmax( )表示softmax函数,MASK( )表示根据邻接矩阵Adj改变N×N的矩阵e的位置值,LeakyRelu( )表示leakyrelu激活函数,W1表示第一可学习的权重矩阵,W2表示第二可学习的权重矩阵,表示拼接向量,||表示对向量进行竖向拼接,T表示转置操作。

6.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,将三个图神经网络GAT1、GAT2、GAT3的输出与词语向量表征hlast进行加权融合,得到特征融合向量hmerge,表示为:其中,hgat1、hgat2、hgat3分别表示神经网络GAT1、GAT2、GAT3的输出,W1表示第一可学习的权重矩阵,W2表示第二可学习的权重矩阵,W3表示第三可学习的权重矩阵,W4表示第四可学习的权重矩阵,k表示GAT神经网络的输出的维度,seqlen表示输入特征融合层最初的维度,m表示文本处理层实体模版的文本长度。

7.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,感受野rn的计算公式如下:其中,rn‑1表示上一个感受野,k是原始卷积核大小,si表示第i层卷积的步长,int(  )表示仅保留数值整数部分,n表示第n层的卷积网络。

8.根据权利要求1所述的一种基于大数据的细粒度商品命名实体识别方法,其特征在于,根据序列向量qα、kα利用实体分数计算函数计算文本中每一个位置上的实体分数,表示为:sα(i,j)=qα