1.一种基于多任务学习的混合注意力机制文本标题匹配方法,其特征在于,步骤1:爬取不同类别的“标题党”文本数据和正常文本数据,构成数据集;
步骤2:对所述数据集进行清洗,剔除掉网页标签和网络表情符号的干扰字符;
步骤3:对所述数据集中的文本数据的标题和正文分别进行类别标记,生成分类数据,所述类别标记包括分类任务1和分类任务2,所述分类任务1为将标题标记为爬取数据时的原有类别,所述分类任务2为将正文标记为是否是“标题党”文本;
步骤4:对步骤3获得的分类数据的标题和正文分别进行分词处理,获得文本词序列;
步骤5:将所述文本词序列处理为预设的固定长度,长度不够用0填充,长度超过的截断;
步骤6:将标记好类别的文本数据随机打乱,使“标题党”文本和正常文本充分混合;
步骤7:将混合后的数据集划分为batch大小的批数据;
步骤8:将所述批数据输入到构建好的文本检测模型中进行训练,具体步骤如下:步骤8.1:将所述批数据的标题和正文输入同一BERT模型中,分别获得正文和标题的词n×300
嵌入矩阵T={t1,t2,t3……tn}、C={c1,c2,c3……cm},T∈R ,n是正文的词序列长度,C∈m×300
R ,m是标题的词序列长度,300是标准BERT模型编码的词向量维度,同时获得BERT模型的第一个输出 和
300×n
步骤8.2:随机初始化一个共享参数矩阵W∈R ,做矩阵变换得到混合了正文与标题m×300
信息的特征矩阵M∈R ,矩阵变换的数学表达式如下:Mm×300=Cm×300×W300×n×Tn×300
300×300
步骤8.3:对 和 做矩阵变换得到特征矩阵F∈R ,矩阵变换数学表达式如下:m×300
步骤8.4:将M作为Q和V,F作为K,计算混合注意力矩阵A∈R ,计算方式如下:其中,dk为K的第二维度;
m×n
步骤8.5:对所述混合注意力矩阵A做全连接得到一个降维矩阵D∈R ;
步骤8.6:随机初始化第一权重矩阵W1,对所述降维矩阵D做全连接,得到一个一维矩阵,
1×j
并计算softmax,作为步骤3提到的分类任务1的输出,维度为R ,j为数据原有类别数;
步骤8.7:随机初始化第二权重矩阵W2,对所述降维矩阵D做全连接,得到一个一维矩阵,
1×2
并计算softmax,作为步骤3提到的分类任务2的输出,维度为R ,两个维度分别表示是或不是“标题党”的概率;
步骤8.8:将步骤8.6和步骤8.7的结果中的最大值作为对应任务的pi,分别计算交叉熵,先求和再求平均,数学表达式如下:其中,n为batch大小,yi为第i条数据的真实标签,pi为模型计算出的第i条数据所属标签的最大概率;
步骤8.9:将步骤8.8的结果作为误差进行反向传播,用于模型参数训练;
步骤8.10:设定结束条件,若未达到结束条件,则重复步骤8.1至步骤8.9,直到满足结束条件,模型停止训练。
2.如权利要求1所述的文本标题匹配方法,其特征在于,所述方法还包括对训练好的文本检测模型进行测试,具体包括:步骤9:针对训练好的模型,执行步骤1至步骤8.7,并将步骤8.7中任务二的输出结果中最大数的下标作为最终结果,不再执行步骤8.8~8.10。