1.一种基于英语口语文本的语义分析方法,其特征在于,包括以下步骤:S1、将英语口语文本进行分词处理,构成词编码集合,并提取标点文本编码;
S2、将词编码集合输入词特征提取模型,得到词特征;
S3、采用全连接层对词特征进行分类,得到每个词编码的类型,其中,词编码的类型包括:主语、谓语和宾语;
S4、根据每个词编码的类型,对词编码集合中词编码进行划分,得到词编码子集;
S5、采用语义分析模型处理各词编码子集和标点文本编码,得到语义分析结果;
所述S5中语义分析模型包括:主语特征提取单元、谓语特征提取单元、宾语特征提取单元、Concat层、标点增强单元和BP神经网络;
所述主语特征提取单元的输入端用于输入主语词编码子集;
所述谓语特征提取单元的输入端用于输入谓语词编码子集;
所述宾语特征提取单元的输入端用于输入宾语词编码子集;
所述Concat层的输入端分别与主语特征提取单元的输出端、谓语特征提取单元的输出端和宾语特征提取单元的输出端连接,其输出端与标点增强单元的输入端连接;
所述BP神经网络的输入端与标点增强单元的输出端连接,其输出端作为语义分析模型的输出端;
所述标点增强单元用于根据标点文本编码,对Concat层的输出特征值进行增强;
所述标点增强单元的表达式为: ,其中,g为标点增强
单元的输出,sigmoid为激活函数,pi为标点文本编码中第i个编码值,ωp,i为pi的权重,bp,i为pi的偏置,H为Concat层的一个输出特征值,L为标点文本编码中编码值的数量,i为编码值的编号;
所述主语特征提取单元、谓语特征提取单元和宾语特征提取单元均包括:第二卷积层、第一残差块、第二残差块和自增强层;
所述第二卷积层的输入端作为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的输入端,其输出端与第一残差块的输入端连接;
所述第二残差块的输入端与第一残差块的输出端连接,其输出端与自增强层的输入端连接;
所述自增强层的输出端作为主语特征提取单元、谓语特征提取单元或宾语特征提取单元的输出端;
所述自增强层的表达式为: ,其中,Zk为自增强层输出的第k个
特征值,rk为第二残差块输出的第k个特征值,K为第二残差块输出的特征值的数量,k为特征值的编号,exp为以自然常数为底的指数函数。
2.根据权利要求1所述的基于英语口语文本的语义分析方法,其特征在于,所述S2中词特征提取模型包括:多个长短期记忆网络、多个拼接层、长短期记忆融合特征提取网络和第一卷积层;
每个所述长短期记忆网络的输入端用于输入词编码集合的一个词编码,其输出端与一个拼接层的输入端连接;所述长短期记忆融合特征提取网络的输入端分别与多个拼接层的输出端连接,其输出端与第一卷积层的输入端连接;所述第一卷积层的输出端作为词特征提取模型的输出端。
3.根据权利要求2所述的基于英语口语文本的语义分析方法,其特征在于,每个所述长短期记忆网络包括:多个LSTM细胞单元,所述多个LSTM细胞单元依次串联,在长短期记忆网络中每个所述LSTM细胞单元的输入为一个词编码中的一个编码值。
4.根据权利要求3所述的基于英语口语文本的语义分析方法,其特征在于,每个所述拼接层用于将一个长短期记忆网络中多个LSTM细胞单元的输出拼接成向量X={x1,…,xm,…,xM},其中,X为拼接层输出的向量,x1为第1个LSTM细胞单元的输出,xm为第m个LSTM细胞单元的输出,xM为第M个LSTM细胞单元的输出,m为一个长短期记忆网络中LSTM细胞单元的编号,M为一个长短期记忆网络中LSTM细胞单元的数量;
所述长短期记忆融合特征提取网络中包括:多个LSTM细胞单元,多个LSTM细胞单元依次串联,在长短期记忆融合特征提取网络中一个LSTM细胞单元的输入为一个拼接层输出的向量。
5.根据权利要求1所述的基于英语口语文本的语义分析方法,其特征在于,所述S4中词编码子集的类型包括:主语词编码子集、谓语词编码子集和宾语词编码子集。