欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022113917066
申请人: 芽米科技(广州)有限公司
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-08-01
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种电商商品标题命名实体识别方法,其特征在于,包括:获取待识别的商品标题文本数据,将标题文本数据转化为词向量;对词向量进行拼接,得到向量特征;向量特征输入到训练好的实体识别模型中,得到识别结果;实体识别模型包括MultiAtt结构和DPCNN+BiGRU结构;

对实体识别模型进行训练的过程包括:

S1:获取商品标题文本数据集,对文本数据集中的数据进行向量化处理,同时对文本按照规则生成新的标注文本,将标注文本进行向量化;

S2:将向量化后的标注文本分别输入到MultiAtt结构和DPCNN+BiGRU结构中进行文本向量特征提取,其中对MultiAtt结构和DPCNN+BiGRU结构提取的特征进行对比学习,得到两个特征向量;

S3:计算两个特征向量之间的向量相似度;计算两个特征向量之间的相似度的公式为:其中,Da表示MultiAtt结果的输出,Db表示堆叠的DPCNN+BiGRU的输出,mep表示对向量求平均池化,map表示对向量求最大池化;

S4:根据向量相似度对两个特征向量进行拼接,根据特征向量拼接结果计算模型的损失函数,损失函数使用降权损失;

根据向量相似度对两个特征向量进行拼接包括:设置相似度阈值,相似度阈值为0.84,当两向量的相似度大于设置的阈值时,只需要使用MultiAtt结果的输出Da进行计算,当两个向量的相似度小于设置的阈值时,将两向量进行逐位相加,并进行归一化处理,表达式如下:其中D表示最终的输出向量,Da表示MultiAtt结果的输出,Db表示堆叠的DPCNN+BiGRU的输出;Bn表示对向量进行归一化处理;

S5:调整模型的参数,当损失函数值最小时完成模型的训练。

2.根据权利要求1所述的一种电商商品标题命名实体识别方法,其特征在于,实体识别模型对输入数据进行处理的过程包括:采用DPCNN+BiGRU结构提取特征的公式为:

tn=BiGRUn(DPCNNn(tn‑1))

其中,tn‑1表示上一个堆叠的输出,DPCNNn为前层的DPCNN结构,BiGRUn为当前层的BiGRU结构;

MultiAtt结构提取向量的特征包括:Attention结构使用多头自注意力机制提取向量特征,其表达式为:Q K V

headi=Attention(QWi ,KWi ,VWi)

O

MultiAtt(Q,K,V)=[head1;…;headk]W

其中,Attention(Q,K,V)为自注意力机制,Q,K,V分别为输入的词向量与三个不同的权重矩阵相乘得到的词向量结果,dk表示输入向量的维度,headi表示第i个Attention计算的Q K V O结果,Wi ,Wi ,Wi分别表示将embedding词向量映射为Q,K,V的矩阵向量,W表示将多头拼接向量映射为词向量的参数映射向量,MultiAtt(Q,K,V)表示计算多头注意力。

3.根据权利要求1所述的一种电商商品标题命名实体识别方法,其特征在于,对文本数据集中的数据进行向量化处理的过程包括:设置文本数据截断长度,根据文本数据截断长度对数据集中的文本数据进行划分,即当句子长度大于文本数据截断长度时进行文本截断,小于文本数据截断长度时在句子后补0填充;在截断后的句子首部加入[CLS],尾部加入[SEP];对截断后的句子中每个字符采用BIO标注编码,文本数据集由多个句子构成,其中B‑X表示实体开头,I‑X表示实体内部,O‑X表示非实体,编码后每个字符对应一个标签;使用bert中的word_embedding编码,将每个切分后的token映射为一个长度为768维的向量。

4.根据权利要求1所述的一种电商商品标题命名实体识别方法,其特征在于,按照规则生成新的标注文本的过程包括:S31、将句子分成三段;

S32、对分成三段句子进行随机位置替换;将位置替换后的句子进行实体替换,即将同一类型的实体进行替换,该替换是有限制的随机替换,同一类型实体长度差不超过1才进行实体替换。

5.根据权利要求4所述的一种电商商品标题命名实体识别方法,其特征在于,将句子分成三段的具体过程包括:使用平均池化对句子中的向量求取平均,得到一个长度为768维的向量,使用向量作为文本向量表征;使用每个token映射的字向量依次与该句向量计算注意力,计算公式如下:ST‑ATTi=meanpool(e1,e2…,en)·ei

其中ST‑ATTi表示句向量与第i个字对注意力值,meanpool函数表示求取平均池化,e1,e2…,en表示的是句子中所有的字向量,ei表示第i个字向量;

选择ST‑ATTi最小的两个字符作为分隔位置,将文本分为s1,s2,s3三段,从注意力最小的位置进行切分,得到对语义信息的影响最小的句子片段。

6.根据权利要求1所述的一种电商商品标题命名实体识别方法,其特征在于,模型的损失函数表达式为:其中,Pα表示所有类型为α的实体首尾集合,Qα表示样本组所有非实体或非α类型的实体首尾集合;wi为生成文本和原始文本的KL散度,i表示实体开头的位置,j表示实体结尾的位置。

7.根据权利要求6所述的一种电商商品标题命名实体识别方法,其特征在于,计算生成文本和原始文本的KL散度包括:对于生成的文本对其输出向量与MultiAtt结果的输出Da进行对比学习,计算生成文本向量与MultiAtt结果的输出Da的KL散度作为损失权重;其表达式为:其中,Dc为生成增强文本的输出向量,max(kl)为一个batch中计算KL散度最大的值。