1.基于生成式预训练模型参数精调整的可控文本生成方法,其特征在于:具体包括以下步骤:步骤一、数据预处理
将采集到的文本数据划分为引导文本Xa=a1 a2 … am和生成文本Xb=b1 b2 … bk,根据生成文本的类别制作标签,作为控制文本Xc=c1 c2 … cn;将控制文本Xc、引导文本Xa和生成文本Xb依次拼接,作为原始输入序列X,生成文本Xb作为原始输出序列Y;
步骤二、自定义条件编码
将步骤一中的原始输入序列X输入生成式预训练模型的词嵌入层,得到的输入表示层0
的输出结果H:
0
H=E1(X)+E2(X)+E3(X)
式中,E1(X)、E2(X)、E3(X)分别为原始输入序列X的词向量矩阵、位置编码矩阵、条件编码矩阵, N表示最大序列长度,d表示输入表示维度;
步骤三、控制文本参数精调整
使用控制文本Xc作为提示,对生成式预训练模型的词嵌入层和每一层的特征提取器Transformer基本单元进行控制文本Xc参数精调整,前向传播计算过程为:l l‑1
H=Transformer_block(H ),1≤l≤Ll
式中,H 为第l层Transformer基本单元输出的隐状态矩阵,L为模型的网络层数;
Transformer_block(·)为Transformer基本单元,通过下式计算:l‑1 l‑1 l‑1 l‑1 q l‑1
式中,查询矩阵Q 、键矩阵K 和值矩阵V 分别为H 映射到对应子空间中得到WH 、k l‑1 v l‑1 l‑1 lW H 、WH ,A 表示第l层的多头掩码注意力机制输出,F 表示第l层的前馈网络输出,l lH分别为Transformer基本单元第一、第二部分的输出;W1、b1、W2、b2均为关于F等式的可学习网络权重参数,ReLU(·)为relu函数,Softmax(·)为softmax函数;
其中,M为掩码矩阵形式化如下:
其中,层归一化用于对输入的向量进行归一化操作;
式中,μ和σ分别表示输入向量x每一维的均值和方差,γ、β为可学习的权重向量, 代表向量对应向量的逐元素相乘;
设置网络的训练目标为使整个原始输入序列X的负对数似然函数值 最小化:L
式中,yi表示生成目标序列中第i个输出序列,P(yi|Y<i,Xc,Xa)为H 经过线性映射和归一化后得到的每一个位置在词表ν上的分布;Hi表示第i个输入序列在模型相对应索引的隐状态向量; 为词表映射矩阵,其中|ν|为词表大小;
反向传播计算过程为:
式中,θ(t)=[θ:n(t),θn+1:(t)]表示生成式预训练模型在当前时刻可学习的权重参数,θ1:n(t)表示当前时刻与控制文本Xc相对应索引的待优化参数,训练时冻结θn+1:(t)使其不参与梯度下降算法更新参数; 为当前时刻损失函数,η为梯度求导 的学习率,n表示控制文本Xc的序列长度;
步骤四、可控层归一化参数精调整
将控制文本Xc通过编码网络得到编码信息,在生成式预训练模型的生成操作层融入该编码信息实现可控层归一化CLN:[γc,βc]=Encoder(E1(Xc))式中,编码网络Encoder(·)用于将控制文本Xc编码成γc、βc两个可学习的权重向量;
步骤五、解码器预测评估
将控制文本Xc=c1 c2 … cn、引导文本Xa=a1 a2 … am进行拼接,并在控制文本开头插入开始符号[CLS],在不同文本间插入间隔符号[SEP],作为输入序列将输入序列 经过上述训练后的生成式预训练模型,自回归生成文本
2.如权利要求1所述基于生成式预训练模型参数精调整的可控文本生成方法,其特征在于:步骤二中,词向量矩阵E1(X)将原始输入序列X转换成实值向量表示;位置编码矩阵E2(X)用来编码每个词的绝对位置;条件编码矩阵E3(X)用来编码当前词是否属于控制文本。
3.如权利要求1所述基于生成式预训练模型参数精调整的可控文本生成方法,其特征在于:所述编码网络Encoder(·)的计算方法为:式中, 依次为关于γc、βc的可学习网络权重参数;Sigmoid(·)为sigmoid函数,其输出的取值范围在0~1之间。
4.如权利要求1或3所述基于生成式预训练模型参数精调整的可控文本生成方法,其特征在于:当γc=Δσ/σ, 控制文本编码信息改变了层归一化输出的均值和方差,影响到了Transformer基本单元的数据分布:式中,Δμ、Δσ分别表示层归一化输出的均值和方差的偏差;
需要在步骤三的基础上进一步采取参数精调整,在反向传播过程中,只计算关于等式γc、βc参数的梯度并更新编码网络相关参数。
5.如权利要求1~3任一所述基于生成式预训练模型参数精调整的可控文本生成方法,其特征在于:该方法用于生成古典诗歌可控文本。
6.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1~3中任一项所述的方法。