欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020112124547
申请人: 陕西科技大学
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2024-01-31
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于机器学习的学业异常预测方法,其特征在于,包括以下步骤;

步骤一:

针对某高校学生一卡通数据进行数据预处理,并按学校毕业要求的相关规定标定学业异常学生和非学业异常学生;

步骤二:

采用DPCA对训练集中的非学业异常学生聚类,按照聚类结果中不同簇的数量比例以不同的采样率进行欠采样,最后将欠采样后的数据与原训练集中的学业异常学生合并形成新的训练集。

2.根据权利要求1所述的一种基于机器学习的学业异常预测方法,其特征在于,所述步骤一中的学业异常学生为学分低于2.5分,将学分不达标的学生标为1,学分达标的学生标为‑1。

3.根据权利要求1所述的一种基于机器学习的学业异常预测方法,其特征在于,所述步骤二中DPCA‑Adaboost的详细流程如下:输入:

样本的训练集T={(x1,y1),(x2,y2),…,(xn,yn)},xi为特征数据,训练集中有n个样本,yi属于标记集合{1,‑1};Adaboost模型弱分类器的个数为m,弱分类器Gm(x);

步骤1:

标记训练集T的类别;将训练集中的非学业异常类标记为‑1,学业异常类标记为1;

步骤2:

DPCA密度峰值聚类非学业异常类;选取yi=‑1的数据集合作为DPCA的输入并绘制决策图,选择决策图中聚类中心距离σ大且局部密度ρ相对较大的点作为簇中心点,之后将其余点划分到距离其最近且密度比自身大的同一簇中;

步骤3:

欠采样和合并数据集;根据每个簇的样本个数si、学业异常类的样本个数L和非学业异常类的样本个数M计算每个簇的采样率ωi,以采样率ωi对DPCA聚类后的数据欠采样,之后将采样后的样本与学业异常类进行合并得到新的训练集数据;

步骤4:

初始化步骤3得到的新的训练集权值分布;式(2)中i表示第i个数据对象,训练集中数据个数为n;

w1i表示第i个数据对象的权值;

步骤5:

多次训练得到不同的弱分类器,用m=1,2,…,M表示第几个弱分类器;

a.训练权值分布为D(i)的样本集得到弱分类器Gm(x);

b.计算弱分类器Gm(x)的误差率

c.计算弱分类器在最终模型中的权重

d.计算新的权值分布如式(3)所示,Zm是规范化因子;

步骤6:

最终的分类器模型:

Gm(x)表示第m个弱分类器的输出值,其取值为‑1或者1,误差率 公式中,em表示误差率,wmi表示第m个弱分类器的第i个数据对象的权值,Gm(xi)表示第m个弱分类器中第i个数据对象的预测输出值,其取值为‑1或者1;‑1表示预测为非学业异常学生,1表示预测为学业异常学生,yi表示实际标签,即刚开始步骤1标定的‑1或者1;‑1表示真实是非学业异常学生,1表示真实是学业异常学生,I(Gm(xi)≠yi)表示预测值和真实值不相符,因此误差率em的值就是被Gm(x)分错的样本的权值之和;

公式中,αm表示Gm(x)弱分类器在最终分类器G(x)中的重要程度,也是弱分类器在最终分类器中所占的权重;

Dm+1(i)=(wm+1,1,wm+2,2,…,wm+1,i,…,wm+1,n), 公式中,wm+1,i表示第m+1个弱分类器的第i个数据对象的权重,Zm是规范化因子,其他参数含义同前面所述, 公式中,G(x)表示最终分类器,其值为1或者‑1,‑1表示预测为非学业异常学生,1表示预测为学业异常学生,sign()函数表示符号函数,即自变量大于0,那么因变量的值就为1;自变量小于0,因变量的值为‑1。

4.根据权利要求3所述的一种基于机器学习的学业异常预测方法,其特征在于,所述步骤3中欠采样采样率ω定义如式(1)所示;

上式中L代表原始数据集中学业异常类的样本个数,M代表原始数据集中非学业异常类的样本个数,DPCA选取的簇中心个数是c个,Si是第i个簇中心的样本个数。

5.根据权利要求3所述的一种基于机器学习的学业异常预测方法,其特征在于,所述样本是原始采集到的学生数据集合,学生数据集合包含很多属性列,包括学分、消费数据、借阅图书数据;

对学分属性列按照低于2.5分的标记为1,1表示学业异常学生;高于2.5分的标记为‑1表示为非学业异常学生,样本中除学分属性列的其他特征属性的学生数据为特征数据,按照学分标准划分的‑1,1属性列的学生数据为标记集合。

6.根据权利要求3所述的一种基于机器学习的学业异常预测方法,其特征在于,所述样本需要按照一定的比例划分为训练集和测试集,一部分学生数据为训练集,另一部分学生数据为测试集,训练集用于训练模型,测试集用于测试模型,训练集和测试集中均包含异常学生和非异常学生;

使用训练集训练好模型后,用测试集的特征属性列数据去预测标记集合列,也就是输出为1表示学业异常,输出为‑1表示非学业异常。