1.基于Spark的极大无关多元逻辑回归模型对文本情感分类方法,其特征在于,所述方法包括:将训练样本数据集中的每个样本逐行存储于HDFS分布式文件系统中;
Spark平台从HDFS分布式文件系统中读取数据,生成具有多个分区的弹性分布式数据集RDD,并将读取的数据存储在所述弹性分布式数据集RDD中;
Spark平台将数据的预处理任务分为多个任务组,然后对每个任务组中存储有读取数据的RDD进行预处理,将预处理的结果存入HDFS分布式文件系统中;
利用经过预处理变换的RDD训练极大无关多元逻辑回归模型,在多元逻辑回归模型的代价函数基础上,通过引入相关参数惩罚项,得到极大无关多元逻辑回归模型的代价函数;
采用梯度下降法并行求解极大无关多元逻辑回归模型的代价函数的导函数,得到极大无关多元逻辑回归分类器;
保存所述极大无关多元逻辑回归分类器,将所述极大无关多元逻辑回归分类器输出到HDFS分布式文件系统中;
将待预测文本数据集按照每个样本逐行存储于HDFS分布式文件系统中;待预测文本数据集经过与训练样本数据集相同的RDD预处理后,输出到HDFS分布式文件系统中;
从HDFS分布式文件系统中读取经过预处理的待预测文本的数据和训练得到的极大无关多元逻辑回归分类器;
利用所述极大无关多元逻辑回归分类器对待预测文本进行情感分类,获取所述待预测文本的情感分类;
在工作节点将待预测文本的情感分类结果输出到HDFS分布式文件系统中。
2.根据权利要求1所述的方法,其特征在于,所述在多元逻辑回归模型的代价函数基础上,通过引入相关参数惩罚项,得到极大无关多元逻辑回归模型的代价函数,包括:获取多元逻辑回归模型的代价函数;
获取不相关约束项;
将不相关约束项引入多元逻辑回归模型的代价函数,得到极大无关多元逻辑回归的代价函数。
3.根据权利要求2所述的方法,其特征在于,所述多元逻辑回归模型为:其中
所述多元逻辑回归模型参数θ的负对数似然函数为:所述负对数似然函数即多元逻辑回归模型的代价函数;其中,m为独立的样本的数目。
4.根据权利要求3所述的方法,其特征在于,所述不相关约束项为:所述不相关约束项即相关参数惩罚项;其中,θi和θj为任意两组不同的参数;
所述极大无关多元逻辑回归模型的代价函数为:
5.根据权利要求4所述方法,其特征在于,所述采用梯度下降法并行求解极大无关多元逻辑回归模型的代价函数的导函数,包括:引入梯度分量的均值 将极大无关多元逻辑回归的导函数中梯度分量dθi的计算分发到不同的计算节点上,进行并行计算;
对每个节点计算得到的梯度分量dθi取平均,并将更新后的模型参数θ值分发到不同的计算节点上,迭代进行并行计算;
当模型参数收敛到一定程度,停止迭代计算;此时得到的模型参数θ即为最终的模型参数;
所述极大无关多元逻辑回归的导函数为:
6.根据权利要求1或5所述的方法,其特征在于,所述利用所述极大无关多元逻辑回归分类器对待预测文本进行情感分类,获取所述待预测文本的情感分类;包括:从HDFS分布式文件系统中加载待预测文本数据集和极大无关多元逻辑回归分类器;
将待预测文本数据集输入到极大无关多元逻辑回归分类器中,得到待预测文本的分类结果。
7.根据权利要求6所述的方法,其特征在于,所述极大无关多元逻辑回归分类器为:
其中
其中,θ为各计算节点并行优化后得到的模型参数,x为待预测文本数据。