1.一种基于大数据极限学习的学生行为分析方法,其特征在于,包括:步骤S1:采集学生的身份信息和行为信息;
步骤S2:采用K-means聚类算法对采集的身份信息和行为信息进行聚类,划分为不同的族类;
步骤S3:对于每一个族类中的数据,根据其对预测结果的影响情况分为大量数据集与小量数据集,其中,大量数据集中的数据对预测结果影响较大,大量数据集的数据对预测结果影响较小;
步骤S4:在不同族类将数据按照预设比例划分为训练集、测试集与预测集;
步骤S5:利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习,得出极限学习机数据模型,再利用预测集进行预测验证;
步骤S6:利用极限学习机数据模型进行学生行为分析,输出分析预测结果。
2.如权利要求1所述的方法,其特征在于,步骤S1中,学生的身份信息包括但不限于学号和姓名,学生的行为信息包括但不限于出入图书馆的时间、出入体育馆的时间、出校时间。
3.如权利要求1所述的方法,其特征在于,步骤S2具体包括:以学生的身份信息和行为信息分为作为类别的初始质心,通过k-means聚类算法,可把每个学生的信息聚合为一个族类,计算公式如下:其中,D表示欧式距离,x1,x2分别表示不同的身份信息,y1,y2分别表示不同的行为信息,且D越小则被分为同族的概率越高。
4.如权利要求1所述的方法,其特征在于,步骤S3具体包括:将数据出现的频率作为数据对预测结果的影响的指标,在每个数据族类按照数据出现频率划分为大量数据集和小量数据集。
5.如权利要求1所述的方法,其特征在于,步骤S5具体包括:步骤S5.1:对聚类划分同一族数据设计信息平衡函数,其计算公式如下:其中, 表示小量数据集 所对应的函数值, 表示大量数据集 所对应的函数值,r为小量数据集与大量数据集的比值,函数 选择基于质心距离的线性衰减函数值,计算公式如下:其中,di为数据到该族类质心的距离,max(di)为最远距离,Δ为一个预设值;
步骤S5.2:选择无限可微分的激励函数,计算公式如下:其中,R表示数据集合;
步骤S5.3:基于上述信息平衡函数和无线可微分激励函数的处理结果,构建极限学习机数据模型。
6.如权利要求5所述的方法,其特征在于,构建的极限学习机数据模型包括三层结构,具体为输入层、隐含层和输出层,步骤S5.3具体包括:计算输入层到隐含层的权值以及隐含层到输出层的权值,从而构建极限学习机数据模型,其中的权值更新计算公式如下:其中,tj为训练集实际结果,R为复合函数的最终集合值,R=wi*xi+bi,其中的wi由公式(2)和(3)联立所确定的输入层到隐含层的权值,bi为每个权值所对应的随机偏置;
建立隐含层到输出层的权值,将公式(5)转化为:Hβ=T,H为隐含层输出,其表达式为:其中,T为期望输出,β为权值矩阵,β=H+T,H+为H的广义逆矩阵,最终隐含层到输出层的权值被确定为β。
7.一种基于大数据极限学习的学生行为分析装置,其特征在于,包括:信息采集模块,用于采集学生的身份信息和行为信息;
聚类模块,用于采用K-means聚类算法对采集的身份信息和行为信息进行聚类,划分为不同的族类;
大小数据集划分模块,用于对于每一个族类中的数据,根据其对预测结果的影响情况分为大量数据集与小量数据集,其中,大量数据集中的数据对预测结果影响较大,大量数据集的数据对预测结果影响较小;
数据划分模块,用于在不同族类将数据按照预设比例划分为训练集、测试集与预测集;
模型构建模块,用于利用训练集、测试集对划分的大量数据集与小量数据集进行不平衡模糊加权的极限学习机学习,得出极限学习机数据模型,再利用预测集进行预测验证;
行为分析模块,用于利用极限学习机数据模型进行学生行为分析,输出分析预测结果。
8.如权利要求7所述的装置,其特征在于,学生的身份信息包括但不限于学号和姓名,学生的行为信息包括但不限于出入图书馆的时间、出入体育馆的时间、出校时间。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被执行时实现如权利要求1至6中任一项权利要求所述的方法。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6中任一项权利要求所述的方法。