1.Spark框架下的稀疏多元逻辑回归模型对文本情感分类的方法,其特征在于,所述方法包括:
将训练样本数据集中的每个样本逐行存储于HDFS分布式文件系统中;
Spark平台从HDFS分布式文件系统中读取数据,生成具有多个分区的弹性分布式数据集RDD,并将读取的数据存储在所述弹性分布式数据集RDD中;
Spark平台将数据的预处理任务分为多个任务组,然后对每个任务组中存储有读取数据的RDD进行预处理,将预处理的结果存入HDFS分布式文件系统中;
利用经过预处理变换的RDD训练稀疏多元逻辑回归模型,将稀疏多元逻辑回归模型的凸优化问题转化为共享问题;采用ADMM算法求解共享问题,得到稀疏多元逻辑回归模型参数的迭代公式;将ADMM算法求解共享问题得到的模型参数迭代公式广播到各个工作节点进行并行化计算,得到稀疏多元逻辑回归分类器;
保存所述稀疏多元逻辑回归分类器,将所述稀疏多元逻辑回归分类器输出到HDFS分布式文件系统中;
将待预测文本数据集按照每个样本逐行存储于HDFS分布式文件系统中;待预测文本数据集经过与训练样本数据集相同的RDD预处理后,输出到HDFS分布式文件系统中;
从HDFS分布式文件系统中读取经过预处理的待预测文本的数据和训练得到的稀疏多元逻辑回归分类器;
利用所述稀疏多元逻辑回归分类器对待预测文本进行情感分类,获取所述待预测文本的情感分类;
在工作节点将待预测文本的情感分类结果输出到HDFS分布式文件系统中;
所述将稀疏多元逻辑回归模型的凸优化问题转化为共享问题,包括:将所述稀疏多元逻辑回归模型的凸优化问题中的高维特征数据集,分解为包含多个子特征的数据集,使所述稀疏多元逻辑回归的凸优化问题转化为共享问题;
在共享问题中按特征分割数据集;所述数据集表示为D={D1,D2,…,DN},其中,N表示数据分块数,ni表示第i个数据块的大小;
所述稀疏多元逻辑回归的凸优化问题为:(i) (i)
其中:1{y =j}为示性函数,当y =j时取值为1,反之为0;λ表示正则项参数,且λ>
0;W为稀疏多元逻辑回归对应的参数;
稀疏多元逻辑回归模型的凸优化问题所转化得到的共享问题为:s,t.DiWi‑Zi=0,i=1,...,N其中, 为第i个数据块下的模型参数分量,且 Zim×k
∈R 为第i个数据块下的模型参数分量;
所述稀疏多元逻辑回归模型参数的迭代公式为:n×k
其中,Wi∈R ,为模型参数分量; 为模型参数分量的均值;Ui是引入的拉格朗日乘子变量,为第i个数据块下的对偶变量。
2.根据权利要求1所述的方法,其特征在于,所述将ADMM算法求解共享问题得到的模型参数迭代公式广播到各个工作节点进行并行化计算,得到稀疏多元逻辑回归分类器;包括:j+1
引入模型参数分量的均值 将稀疏多元逻辑回归模型参数分量wi 的计算,分发到不同的计算节点;
对计算得到的模型参数分量 做平均操作;并将 的值分发到不同的计算节点,进行并行计算;
当模型参数收敛到一定程度,停止迭代计算;此时得到的Wi和Zi为最终得到的模型参数的分量。
3.根据权利要求1所述的方法,其特征在于,所述利用所述稀疏多元逻辑回归分类器对待预测文本进行情感分类,获取所述待预测文本的情感分类;包括:从HDFS分布式文件系统中加载待预测文本数据集和稀疏多元逻辑回归分类器;
将待预测文本数据集输入到稀疏多元逻辑回归分类器中,得到待预测文本的分类结果。
4.根据权利要求3所述的方法,其特征在于,所述稀疏多元逻辑回归分类器为:其中,W为各计算节点并行优化后得到的模型参数,x为待预测文本的数据。