1.一种智能识别电商标题方法,获取待识别的电商标题样本,将样本输入到电商实体提取模型,得到预测实体,其特征在于,电商实体提取模型的训练包括:S1:对收集到的电商数据样本进行处理,按照实体片段的头尾边界位置对数据进行标注;
S2:将样本映射为词嵌入形式,并送入引入辅助学习任务训练的自注意力模型,得到词向量;
S3:对词向量使用掩码自注意力机制提取正向信息作为头指针,提取反向信息作为尾指针;
所述步骤S3包括:步骤S31:将词向量映射到原始数据样本上,由词向量得到特征矩阵F;
步骤S32:分别用上三角矩阵A和下三角矩阵B对提取出的特征矩阵F做掩膜,分别得到正向信息Fa和反向信息Fb;
正向信息Fa和反向信息Fb计算规则包括:
aij表示开头位置为i、结尾位置为j的实体片段表示的语义特征,n表示设定的最大序列长度,表示矩阵的点乘运算;
S4:头指针与尾指针匹配时融入相对位置向量信息,得到预测的实体片段;
所述步骤S4包括:步骤S41:将正向信息和反向信息进行匹配,得到评分矩阵;
步骤S42:根据相对位置距离初始化位置信息加权对角矩阵;
步骤S43:将位置信息加权对角矩阵加权到评分矩阵上;
步骤S44:评分矩阵中分数较高的分值所处矩阵的行列位置,可映射回序列位置表示实体片段,该实体片段表示预测的实体;
所述评分矩阵的计算规则包括:
W表示评分矩阵,R为任意n*n的矩阵,为正反向匹配信息打分;
位置信息加权对角矩阵M的构造包括:
α是放大系数,其值是任意大于1的实数,β是衰减系数,其值是0到1之间的任意小数,β指数表示当前元素所在的行列位置的差值的绝对值;
S5:迭代训练电商实体提取模型,保存模型参数。
2.根据权利要求1所述的一种智能识别电商标题方法,其特征在于,步骤S2所述的自注意力模型,引入辅助学习任务的训练过程包括:步骤S21:将样本映射为词嵌入形式,并送入自注意力模型;
步骤S22:根据当前字符与附近字符的词向量相似度进行计算损失值;
步骤S23:根据损失值进行梯度反传,更新模型里的参数,进行模型训练。
3.根据权利要求2所述的一种智能识别电商标题方法,其特征在于,所述当前字符与附近字符的词向量相似度计算包括:选任一字符作为模板词w,与模板词位置相近的字符作为参考词序列[w1 ,w2 ,...,wi,...],将模板词与参考词序列做计算,计算规则如下:loss=∑lossi其中y表示模板词是否为实体边界的预测值,Yi表示参考词是否为实体边界的实际值,lossi表示模板词w与参考词wi之间的损失值,loss表示模板词与参考词序列中所有词的损失lossi的总和,表示两个词做余弦相似度计算。