1.一种结合全局主题信息的摘要生成方法,其特征在于,包括以下步骤:S1,抽取原文的关键主题信息;
S2,将关键主题信息与原文表示融合;
S3,采用指针生成网络生成摘要。
2.根据权利要求1所述的一种结合全局主题信息的摘要生成方法,其特征在于,所述S1是采用基于隐含狄利克雷分布的主题信息抽取器实现的,包括以下步骤:S1‑1,由LDA模型得到文档集D的主题概率分布,以及各主题下的词概率分布;选择概率为TOP p的主题,在TOP p主题下分别选取概率为TOP q的词项,构成关键主题信息词集Top;
S1‑2,以BERT预训练模型得到关键主题信息词集Top的嵌入表示;
S1‑3,取所述关键主题信息词集Top的嵌入表示的均值向量作为文档的关键主题信息向量G_T,计算如式(9)~(10)所示:X=fBERT(Top) (9)其中,X={x11,x12,...,x1q,...,xpq}为经BERT编码后的关键主题词向量集;
fBERT为BERT的非线性方程;
p为前p个主题;
q为前p个主题下的前q个主题词;
Xi表示经BERT编码后的第i个关键主题词向量。
3.根据权利要求1所述的一种结合全局主题信息的摘要生成方法,其特征在于,所述S2包括以下步骤:S2‑1,将文档的关键主题信息向量G_T经线性变换为与原文编码相同维度,得到关键主题信息向量G_T';
S2‑2,将关键主题信息向量G_T',编码端隐藏层向量hi和解码端隐藏层向量st通过线性变换,再经tanh激活函数得到相关度权重,将相关度权重进行转置、归一化后得到注意力分布 如式(12)~(13)所示:其中,Att(hi,st,G_T')表示对hi、st、G_T'进行加性注意力操作;
T
vtanh(Whhi+Wsst+Wg_tG_T'+battn)表示对tanh(Whhi+Wsst+Wg_tG_T'+battn)进行转置变换;
hi是原文词wi的隐藏层向量表示;
wi表示第i个原文词;
st为解码端隐藏层向量;
G_T'为关键主题信息向量;
Wh,Ws,Wg_t是可训练的参数矩阵;
battn是偏置项;
softmax(·)为归一化指数函数;
S2‑3,用注意力分布 与原文各词的隐藏层向量加权求和,得到融合关键主题信息的上下文向量Ct,如式(14)所示:其中,t表示时间步;
T为总的时间步;
为时间步t第i个词的注意力分布;
表示时间步t第i个词的隐藏层向量。
4.根据权利要求3所述的一种结合全局主题信息的摘要生成方法,其特征在于,所述S2还包括:t
将c作为求解注意力分布时的额外输入,将当前时间步以前一定步长内的注意力权重考虑在内,计算当前时间步的注意力:其中, 为时间步t的注意力分布;
为时间步t第i个词的未归一化的注意力打分函数;
Wh,Ws,Wc,Wg_t为可训练的参数矩阵;
为时间步t第i个词的覆盖向量;
battn为偏置项。
5.根据权利要求1所述的一种结合全局主题信息的摘要生成方法,其特征在于,所述S3包括:对目标摘要词序列R=[r1,r2,…,rk],用LSTM对其编码,计算词的隐藏层向量,其中rt表示在时间步t的摘要词,k表示总的时间步数;对任意rt∈R,其隐藏层向量编码如式(15)~(16)所示:st=LSTM(st‑1,yt‑1,Ct) (16)w
其中,e(rt)为rt的词嵌入表示;
m为词嵌入维度;
yt为在时间步t的摘要词rt的向量表示;
st为时间步t的隐藏层向量;
Ct表示融合了时间步t之前关键主题信息的上下文向量;
对给定序列,在预设词表上,每个词w输出的条件概率P(w)如式(17)~(18)所示:Pvocab=softmax(V'(V[st;Ct]+b)+b') (17)P(w)=Pvocab(w) (18)其中,Pvocab为预设词汇表中所有单词的概率分布;
softmax表示归一化指数函数;
[;]表示向量拼接;
Pvocab(w)表示当前词w的概率分布;
V’、V是可训练的参数矩阵;
b和b’是偏置项;
在每个解码器时间步t,指针网络用上下文向量Ct、解码端隐藏层向量st和解码端输入yt计算生成摘要词的概率pgen,计算如式(19)所示:Pgen=σ(WctCt+Wstst+Wytyt+bptr) (19)其中,Wct,Wst,Wyt是可训练的参数矩阵;
bptr是偏置项;
σ是sigmoid激活函数;
对于每一篇文档,pgen对词汇分布和注意力分布加权求和,得到一个扩展词表,在所述扩展词表上生成词w的概率如式(20)所示:其中,Pvocab(w)是预设词表上生成词的概率;
表示对时间步t第i个词的之前的所有注意力进行求和。
6.根据权利要求1所述的一种结合全局主题信息的摘要生成方法,其特征在于,还包括损失函数:losst=‑logP(wt)+λ∑icovlosst (26)losst为时间步t的最终损失函数;
P(wt)为生成目标词wt的概率;
wt为时间步t的词;
λ为超参数;
covlosst为时间步t的覆盖损失;
为时间步t第i个词的注意力分布;
为时间步t第i个词的覆盖向量。