1.基于深度学习的大数据智能分析方法,其特征在于,包括以下步骤:S1、通过大数据采集模块获取原始数据,采用大数据预处理算法在缺失值、异常值和噪声情况下对原始数据进行准确预处理;
S2、利用深度学习模型获取数据特征,并采用特征选择算法选取各种类型的特征向量进行组合,得到预测结果;
S3、基于注意力机制的深度学习网络架构上,利用堆叠自编码器模型进行数据训练和分类;
S4、采用数据压缩算法进行数据分析,将数据采用多种可视化方式来展示分析结果;
所述S2中深度学习模型在特征提取过程使用卷积神经网络模型进行数据分析,并提取特征;
所述卷积神经网络模型进行数据分析,并提取特征包括以下步骤:提取所述大数据预处理算法预处理后的原始数据;
定义CNN模型;
模型训练;
使用训练好的CNN模型对数据进行特征提取;
所述S2中的特征选择算法中,特征选择的过程包括以下两个步骤:从每一类特征中,选取最相关的特征,构成新的特征向量;
通过学习器对选出的新特征向量进行分类;
所述S3中的注意力机制的深度学习网络架构,通过以下算法实现:设输入的特征为{C*H*W},其中C表示通道数,H和W分别表示特征图的高和宽,假设有K个注意力头,每个头需要输出不同的权重,每个头的权重定义为{K *C},输入为x,经过K个不同的卷积操作和对应的权重得到K个注意力变换结果,即:{D*H*W}= Conv(x,wj), j=1,2,...,K其中,D表示每个头的输出深度,设置为C/K,将这K个输出进行拼接得到加权的特征表示:Concat(V1,V2,...,VK)={D1*H*W}其中,D1=D*K,将加权的特征送入后续的层进行训练,表达式为:alpha{i,j}=e(i,j)/所有权重分数的总和e(i,j)=f(hi,hj)
其中,alpha{i,j}表示注意力机制中第i行第j列的注意力权重,e(i,j)是注意力得分矩阵中第i行第j列的元素,f(hi,hj)表示通过输入序列中位置i的特征向量和位置j的特征向量的加权求和;
所述S3中堆叠自编码器模型包括以下步骤:根据数据加权的特征按照比例分为训练集、验证集和测试集;
构建多个自编码器,包括输入层、编码层和解码层,使用无监督的方式进行特征学习;
将多个自编码器形成一个深层神经网络模型;
使用训练数据集进行模型训练,在训练过程中使用自适应学习率的优化算法和正则化方法避免过拟合;
使用训练好的堆叠自编码器模型对数据进行特征提取,构建分类模型;
使用验证集合测试集对分类模型进行验证,选择合适的模型以及参数,使用训练好的模型对新数据进行预测。
2.根据权利要求1所述的基于深度学习的大数据智能分析方法,其特征在于:在获取原始数据时,所述S1中的大数据采集模块采用网络爬虫技术自动获取各种类型数据,并进行保存和整理;
所述网络爬虫技术包括以下步骤:
确定目标网站,分析其网站结构;
编写网络爬虫程序来处理目标网站的数据抓取和提取;
根据先前分析的网站布局和元素信息来获取目标数据;
将爬取到的数据存储到数据库中。
3.根据权利要求2所述的基于深度学习的大数据智能分析方法,其特征在于:所述S1中的大数据预处理算法包括以下步骤:收集和检查数据,缺失值处理,异常值处理,噪声处理,数据采样减小原始数据大小,数据降维和变换,数据标准化,数据集拆分,验证模型。
4.根据权利要求1所述的基于深度学习的大数据智能分析方法,其特征在于:所述S4中的数据压缩算法包括以下步骤:将预测数据和分析出的数据进行数据编码;
统计符号出现的频率,将频率由小到大排序,每次合并最小的两个频率,构建一棵树,其中较小的频率采用0表示,较大的频率采用1表示,按照叶子结点顺序输出编码;
使编码后的数据进行压缩传输。
5.根据权利要求4所述的基于深度学习的大数据智能分析方法,其特征在于:所述S4中可视化方式包括:散点图、条形图、直方图、箱线图、热度图和整体关系图。