1.一种基于大数据的APP软件用户评论需求分类方法,其特征在于,包括:S1:获取APP用户评论数据,对APP用户评论数据进行清洗,对清洗后的APP用户评论数据根据其评论需求进行打标签处理;
S2:建立SVTEO模型和NBTEO模型;
所述SVTEO模型包括:提取Transformer模型中的Encoder结构部分,得到Trasformer-Encoder-Only层,在Trasformer-Encoder-Only层后连接池化层,池化层后并行连接线性层和支持向量层,得到SVTEO模型;
所述NBTEO模型包括:提取Transformer模型中的Encoder结构部分,得到Trasformer-Encoder-Only层,在Trasformer-Encoder-Only层后连接池化层,池化层后并行连接线性层和朴素贝叶斯层,得到NBTEO模型;
所述Trasformer-Encoder-Only层包括:Embedding层以及六层Encoder层;
S3:将带标签的APP用户评论数据分别输入SVTEO模型和NBTEO模型,将两模型的线性层分别向支持向量层和朴素贝叶斯层进行ML、DL同质化学习;
对SVTEO模型和NBTEO模型进行ML、DL同质化学习,包括:
将APP用户评论数据文本分别输入SVTEO模型和NBTEO模型的Trasformer-Encoder-Only层进行文本处理,将Trasformer-Encoder-Only层中的Embedding层与六层Encoder层第六层的Last_hidden_state层的输出取出并通过权重矩阵相乘相加后,分别通过池化层进行池化操作,得到两个相异的池化输出;
将池化输出分别输入SVTEO模型和NBTEO模型的线性层,先将维度扩充后,再将维度缩减到标签数量,得到线性层的概率输出;
将SVTEO模型和NBTEO模型的支持向量层和朴素贝叶斯层的参数分别动态更新,每次只更新一定比例的整体权重,使其参数变化尽可能平滑;
将池化输出分别送入支持向量层和朴素贝叶斯层中,分别得到其概率输出;
将SVTEO模型的线性层与支持向量层得到的两个概率输出做MAE_Loss,当MAE_Loss损失最小时,得到学习到支持向量层的泛化及高纬空间分类能力的线性层;
将NBTEO模型的线性层和朴素贝叶斯层得到的两个概率输出做MAE_Loss,当MAE_Loss损失最小时,得到学习到朴素贝叶斯层的泛化及基于概率分布的推理能力的线性层;
S4:根据将带标签的APP用户评论数据分别对同质化学习后的SVTEO模型和NBTEO模型进行异质化和参数微调处理,并将处理后的SVTEO模型和NBTEO模型组成用户评论需求分类模型;
将带标签的APP用户评论文本数据分别送入两个模型中并得到两个异质的池化输出,并分别通过同质化学习后的线性层输出APP用户评论文本数据的logits预测标签概率;
将两个模型的同质化学习后的线性层输出APP用户评论文本数据的logits预测标签概率做kl散度计算,得到的kl_loss取负并固定模型参数,得到两个相互差异更大的异质模型;
将两个模型的logits预测标签概率分别与数据自带的标签进行交叉熵损失函数计算,得到的ce_loss取正并固定模型参数,得到预测标签更接近真实标签的SVTEO模型和NBTEO模型;
将处理后的SVTEO模型和NBTEO模型组成用户评论需求分类模型,通过kl_loss和ce_loss构建用户评论需求分类模型的损失函数,通过损失函数进行模型训练,得到最优的用户评论需求分类模型;
S5:将待分类的APP用户评论数据输入用户评论需求分类模型进行分类打标处理,得到APP用户评论数据的分类标签。
2.根据权利要求1所述的一种基于大数据的APP软件用户评论需求分类方法,其特征在于,对APP用户评论数据进行清洗,包括:对APP用户评论文本数据进行大小写转换,去除停用词、非法词、暴力词及不良内容。
3.根据权利要求1所述的一种基于大数据的APP软件用户评论需求分类方法,其特征在于,将Embedding层与Last_hidden_state层的输出取出并与权重矩阵相乘相加后,通过池化层进行池化操作,得到池化输出,包括:Output=Tanh(concat(Max(E*W
其中,Output表示池化输出,Tanh()表示Tanh激活函数,concat()表示向量拼接,Max()表示极大池化函数,Mean()表示平均池化函数,E表示Embedding层的输出,W
4.根据权利要求1所述的一种基于大数据的APP软件用户评论需求分类方法,其特征在于,对SVTEO模型的支持向量层的参数动态更新和平滑,包括:Param
其中,Param
5.根据权利要求1所述的一种基于大数据的APP软件用户评论需求分类方法,其特征在于,对NBTEO模型的朴素贝叶斯层的参数动态更新和平滑,包括:其中,Param
6.根据权利要求1所述的一种基于大数据的APP软件用户评论需求分类方法,其特征在于,所述用户评论需求分类模型的损失函数,包括:其中,γ表示kl_loss的损失权重,β表示ce_loss的损失权重,logits
7.根据权利要求1所述的一种基于大数据的APP软件用户评论需求分类方法,其特征在于,将待分类的APP用户评论数据输入用户评论需求分类模型进行分类打标处理,得到APP用户评论数据的分类标签,包括:待分类的APP用户评论数据分别通过SVTEO和NBTEO模型得到预测概率,将得到的预测概率加权平均处理后集成输出预测标签,得到APP用户评论数据的分类标签。