1.一种文本分类方法,其特征在于,所述方法包括:
构建第一文本分类模型;
采集样本文本数据,对所述样本文本数据进行处理获得训练集;
利用所述训练集训练所述第一文本分类模型获得第二文本分类模型;
获得待分类文本数据,将所述待分类文本数据输入所述第二文本分类模型,所述第二文本分类模型输出所述待分类文本数据的分类结果;
其中,所述第一文本分类模型包括:
输入层,所述输入层用于获得输入文本数据;
Bert预训练模型,所述Bert预训练模型用于对所述输入文本数据进行编码获得词向量,基于所述词向量获得第一输入序列;
卷积单元,所述卷积单元包括:第一池化层、第一至第k卷积块,k为大于1的整数,所述第一池化层用于对所述第一输入序列进行下采样处理获得第二输入序列;第一至第k卷积块依次连接,第一卷积块的输入为所述第二输入序列,所述第一卷积块的输出为第二卷积块的输入,...,第k‑1卷积块的输出为第k卷积块的输入;第一至第k卷积块中的每个卷积块均包括一个卷积层和一个激活层,所述卷积层用于对输入所述卷积块的数据进行特征提取获得特征向量,所述激活层用于对所述特征向量进行激活处理;
通过残差连接将所述第一池化层的输出和所述第k卷积块的输出叠加后输入第二池化层,所述第二池化层用于对叠加后的输入数据进行降维处理获得池化结果;
全连接层,所述全连接层用于对所述池化结果进行分类并将分类结果传输至输出层;
输出层,所述输出层用于输出所述输入文本的分类结果。
2.根据权利要求1所述的文本分类方法,其特征在于,所述第一输入序列的长度为n,所述卷积层的卷积核大小为m,步长为s,在所述第一输入序列两端分别填补p个零所述卷积层的输出序列为(n‑m+2p)/s+1。
3.根据权利要求2所述的文本分类方法,其特征在于,所述卷积层中,s=1,m=250,所述卷积层的输出序列的长度为n。
4.根据权利要求1所述的文本分类方法,其特征在于,所述第一池化层的大小size=3,步长stride=2。
5.根据权利要求1所述的文本分类方法,其特征在于,所述方法包括:对所述样本文本数据进行处理获得训练集、测试集和验证集。
6.根据权利要求5所述的文本分类方法,其特征在于,所述方法包括:对训练集、测试集和验证集进行字符向量编码以及分词处理,生成所述第一文本分类模型能够识别的数据结构和标签列表。
7.根据权利要求6所述的文本分类方法,其特征在于,所述方法包括:对训练集、测试集和验证集中的中文字符以字为单位进行分词,对于每个token字符返回该字符的词表索引,在文本标签化序列中首尾添加标志位[CLS]和[SEP],并统一训练集、测试集和验证集中的序列长度,对序列长度小于阈值的序列进行补位,当序列真实长度小于最长序列长度时,对真实序列进行第一标识,对补位长度进行第二标识。
8.根据权利要求6所述的文本分类方法,其特征在于,所述方法包括:对训练集、测试集和验证集进行数据增强处理,具体包括:在训练集、测试集和验证集中的文本数据中随机插入标点符号。
9.根据权利要求8所述的文本分类方法,其特征在于,插入标点符号的个数n设定为句子长度L的1/10到1/5之间的随机值, 其中,random.randint为在范围内随机取值。
10.根据权利要求1所述的文本分类方法,其特征在于,本方法基于对抗学习和控制损失函数对所述第一文本分类模型进行训练,训练过程中的损失函数为Lcce:Lcce=‑∑∑[1‑α(yp‑m)]ytLogyp
其中,yt为数据真实值,yp为第一文本分类模型预测的类别概率值,m为设定的控制值,α为分段函数。