1.一种基于舆情大数据分析的多标签文本分类方法,其特征在于,包括:获取高校文本数据,根据高校文本数据构建拓扑图;将拓扑图输入到训练好的多标签文本分类模型中,得到高校文本数据的分类结果;所述多标签文本分类模型包括图卷积神经网络GCN和注意力残差网络;
对多标签文本分类模型进行训练的过程包括:S1:获取文本数据和标签数据;将每个文本数据转换为词级拓扑图,将所有的拓扑图进行集合和划分,得到训练集和测试集;将标签数据转换为标签拓扑图;
S2:将训练集中的词级拓扑图输入到图卷积神经网络GCN中提取文本数据的词级特征向量;
S3:根据图卷积神经网络GCN的注意力系数和文本数据构建句级拓扑图,将句级拓扑图输入到图卷积神经网络GCN中提取文本数据的句级特征向量;
S4:将各个标签拓扑图输入到图卷积神经网络GCN中,提取各个标签拓扑图的标签特征向量;
S5:采用基于注意力的残差网络对词级特征向量和句级特征向量进行特征融合,得到级联特征向量;
S6:将标签特征向量与级联特征向量进行点乘,预测文本的分类标签;
S7:根据文本的分类标签计算多标签文本分类模型的损失函数;
S8:将测试集中的拓扑图再次输入到多标签文本分类模型中,优化损失函数,当损失函数最小时,完成模型的训练。
2.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,构建的高校文本拓扑图中,采用高校文本数据的语料词汇作为拓扑图的节点,采用互信息PMI构建拓扑图的边;构建的标签拓扑图中,采用高校文本数据标签的语料词汇作为标签拓扑图的节点,采用余弦相似度和欧氏距离构建标签拓扑图的边。
3.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,提取文本数据的词级特征向量的过程为:步骤1:采用预训练的BERT模型对文本数据进行词向量编码处理,得到每个词在向量空间中对应的特征向量表示h;
步骤2:根据词级拓扑图的节点和边构建邻接矩阵;
步骤3:根据特征向量表示h构建初始特征矩阵;
步骤4:将邻接矩阵和初始特征矩阵输入到图卷积神经网络GCN模型中,提取出文本数据的词级特征向量。
4.根据权利要求3所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,词级特征向量H的表达式为:H={h1,h2,...,hv}其中,v为词数,hv表示词的特征。
5.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,提取文本数据的句级特征向量的过程包括:步骤1:获取训练词级网络的最后一层的注意力系数ai,j;
~
步骤2:根据注意力系数将各高校文本语料转换为句级向量编码表示H ;
步骤3:根据文本数据构建句级拓扑图,句级拓扑图的节点由文本各句子组成;
步骤4:根据句级拓扑图的节点和边构建邻接矩阵;
~
步骤5:根据句级向量编码表示H 构建初始句级特征矩阵;
步骤6:将邻接矩阵和初始句级特征矩阵特征矩阵输入到图卷积神经网络GCN模型中,*
提取出句级特征向量H。
6.根据权利要求5所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,注意力系数ai,j的表达式为:aij=ReLU(hiWl,hjWl)其中,hi表示当前卷积层的第i个节点特征向量,hj表示当前卷积层的第j个节点特征向量,Wl表示当前层权重系数,ReLU(.)表示线性整流函数。
7.根据权利要求5所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,高校文本语料的句级向量编码表示的公式为:其中,aij为上述词级网络训练得到的节点i与j的注意力系数,Hi为当前词节点,m为与i相邻的节点数,N为句子词数, 为句子r的节点表示。
8.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,得到级联特征向量的过程包括:步骤1:采用全连接神经网络对句级特征向量进行处理,得到与词级特征向量相同维度的句级特征向量。
步骤2:将句级特征向量与词级特征向量特征融合得到级联文本特征向量。
9.根据权利要求8所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,级联文本特征向量的计算公式为:其中,arj为句级网络训练得到的节点r与j之间的注意力系数,M为所有与节点r邻接节点,Hi为节点为i的词级特征向量, 为节点为r的句级特征向量,N为设定的词级图卷积神经网络的输入维度及全连接神经网络的输出维度,W为全连接神经网络的权重参数,b为偏置项,ReLU(.)表示线性整流函数。
10.根据权利要求1所述的一种基于舆情大数据分析的多标签文本分类方法,其特征在于,多标签文本分类模型的损失函数为:其中,yD表示高校新闻评论文本语料的合集,Y为文本预料真实标签,表示预测标签。