1.一种基于增强问题重要性表示的答案选择算法,其特征在于:步骤如下:S1,将问题和答案通过BiLSTM编码层对问题和答案进行编码,得到问题的句子和答案的句子;
S2,编码后的问题利用自注意力机制得到新的问题向量;所述步骤S2中对步骤S1中得到问题的句子Tq={tq1,...,tqm}和答案的句子Ta={ta1,...,tan},其中m和n分别表示问题和答案的长度,u为LSTM的隐层维度;对问题中的每个词进行计算权重并更新权重,生成新的问题向量表示;所述新的向量计算公式为:v=TqW1;其中
αq=sigmoid(v);其中
Uq=αq⊙Tq;其中
S3,将问题和答案构建词级相似度矩阵进行对齐;所述词级相似度矩阵的计算方式为:T
M(i,j)=Uq(i)Ta(j)
其中, 词级相似度矩阵的每一行是问题中的词对答案中的每个词的影响,对词级相似度矩阵的行和列用softmax函数进行归一化,得到互信息影响因子λq(i,j)和λa(i,j),其中,λq(i,j)和λa(i,j)的取值范围均在[0,1];将问题向量和答案向量与对应的影响因子相乘得到两个新的向量Eq和Ea;
S4,捕捉多粒度的语义信息,将不同粒度的向量进行融合比较;所述在步骤S4中,问题原始向量表示为Q,经过注意力对齐层的向量表示为 答案原始向量为A,经过注意力对齐层的向量表示为 向量相减表示两个向量之间的欧式距离,向量相乘近似于两个向量之间的余弦距离,具体计算公式如下:其中,
S5,通过多窗口CNN来提取融合特征,得出最佳选项;
所述步骤S5中的计算公式为:
U=CNN(Fuse),其中,Fuse表示融合向量Kq或者融合向量Ka;
CNN的输出U通过最大池化和平均池化得到Sq,max,Sa,max,Sq,mean,Sa,mean,然后拼接成一个向量S;
通过多层感知器(MLP)得到最后的预测向量 利用下列公式得到得分向量;
G=softmax(Score);
减少预测值的概率分布接与标签值的概率分布的差距,公式为:
2.根据权利要求1所述基于增强问题重要性表示的答案选择算法,其特征在于:所述在步骤S1中Q为问题,答案为A,用Hq={hq1,...,hqm}和Ha={ha1,...,han}来表示问题句向量和答案句向量, 是句子Hq的第i个词嵌入;
问题和答案通过BiLSTM编码层捕捉到句子上下文的信息,在t时刻的嵌入词为xt,前一时刻的隐层和记忆单元分别为ht‑1和ct‑1,下一时刻的隐层ht和记忆单元ct计算如下:gt=φ(Wgxt+Vght‑1+bg),it=σ(Wixt+Wiht‑1+bi),ft=σ(Wfxt+Wfht‑1+bf),ot=σ(Woxt+Woht‑1+bo),ct=gt⊙it+ct‑1⊙ft,
ht=ct⊙ot
其中, σ和φ分别是sigmoid函数和tanh函数,⊙表示两个向量进行元素相乘,输入门i,遗忘门f和输出门o能够自动的控制信息的流动,同时记忆单元ct可以记住长距离的信息ht是t时刻的向量表示。