1.一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,包括如下步骤:步骤1:对Transformer模型进行改进:在Transformer模型中加入指针生成器网络和双向门控循环网络,并在Transformer模型中的编码器和解码器的每一层的前馈网络后连接适配器层;得到改进后的模型TTGCIF模型;
步骤2:构建源域文本数据集和目标域文本数据集中的每个<众包原始文本,众包集成d d d文本>的语义原型z,z=[x ,y ,a],x表示众包原始文本,y表示众包集成文本,a表示众包原始文上的语义注释文本;d∈{Source,Target},Source表示源域,Target表示目标域;
d d
步骤3:对z中每个文本做词嵌入处理:对x 和a 进行词嵌入处理得到 和 且的向量形式满足Transformer模型中编码器的格式要求, 的向量形式满足双向门控循环d网络的格式要求;对y单独进行两次词嵌入处理,第一次词嵌入处理后得到的 的向量形式满足双向门控循环网络的格式要求,第二次词嵌入处理后得到的 的向量形式满足Transformer模型中解码器的格式要求;
步骤4:将 输入到含有Sigmoid激活函数的全连接层进行转换,得到 根据最大均值差异,对 和 进行数据分布对齐处理,得到对齐后的目标域众包原始文本步骤5:将 输入到Transformer模型的编码器中,将 或者 输入到双向门控循环网络中,将 输入到解码器中,对TTGCIF模型进行训练;
步骤6:从N个源域中随机抽取K条语义原型,得到N*K条语义原型,将该N*K条语义原型作为训练任务数据集;将训练任务数据集中的一半数据划分为支持集,另一半数据划分为查询集;重复步骤6,直到源域的所有的语义原型都被抽取过,得到若干个训练任务数据集;
步骤7:将步骤5中训练好的TTGCIF模型中的双向门控循环网络的参数固定不动,基于步骤5中训练好的TTGCIF模型参数,采用步骤6中的支持集和查询集对编码器和解码器进行训练;
步骤8:对步骤7中训练好的编码器和解码器的参数进行调整,得到最终的TTGCIF模型;
步骤9:将需要提取集成文本的众包原始文本输入至步骤8的TTGCIF模型中,得到对应的众包集成文本。
2.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,所述步骤1中的解码器从输入至输出包括8个子层,双向门控循环网络的输出通过一个全连接层与解码器的第2个子层的输入端连接;指针生成器网络用于和Transformer解码器共同计算生成概率。
3.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法,其Target特征在于,所述目标域的众包集成文本y 采用如下方法获得:将目标域的众包原始文本targetx 的每个子句分成单词序列,按照子句中单词的数量,从高到低选择u个子句作为目标Target域的众包伪集成文本,也既y ;u为源域中每个众包集成文本长度除以源域中相应的众包原始文本长度的均值。
4.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,所述步骤4具体为,将 和 投射到再生核希尔伯特空间H中,得到Source Target在H中的表示X1 ,和 在H中的表示X1 ;在核希尔伯特空间H中,基于如下公式训练含有Sigmoid激活函数的全连接层:
其中,dis(.)表示计算距离, 表示投射到H空间的 中第i个数据的分布,表示投射到H空间的 中第j个数据的分布;n1表示 中数据的总个数,n2表示 中数据的总个数;
将训练后的含有Sigmoid激活函数的全连接的输出映射表示为 通过如下公式得到对齐后的目标域众包原始文本其中,N表示源域和目标域的总个数之和。
5.根据权利要求1所述的一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,所述步骤5中基于如下损失函数对TTGCIF模型进行训练:其中,Ltotal为对TTGCIF模型进行训练的损失函数, 的表达式如下所示:E
其中, 为交叉熵损失,T (.)表示Transformer的编码器, 为E
TTGCIF模型的输出,R 表示双向门控循环网络, 表示隐藏状态接近隐藏状态 D表示均方误差, 表达式如下所示:
pgen表示指针生成器网络产生的生成概率,wt表示输入至Transformer解码器的 中的第t个标记;Pvocab(.)表示词汇分布,Pcopy表示复制分布概率,σ表示Sigmod激活函数,T为转置, 表示编码器里8个子层中最后一个子层的输出,st表示解码器里8个子层中最后一t t个子层的输出, 为a 中第i'个数据,a 为 中的第t个标记输入至Transformer解码器t后,解码器最后一个子层中多头注意力模块输出的注意力权重分布向量,I表示a中数据的总个数;linear表示线性层,wh,ws,wx,bptr,w和bvocab均表示学习参数;
的表达式如下所示
其中, 表示隐藏状态 接近隐藏状态
的表达式如下所示:
6.根据权利要求5所述的一种基于多阶段迁移学习策略综合的众包文本集成方法,其特征在于,所述步骤7中对编码器和解码器进行训练的损失函数 为:其中 的表达式如下所示: