欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018100068290
申请人: 西南交通大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于CUDA的属性约简方法,其特征在于,包括

步骤1:去除数据集中含有缺失值的数据对象,离散化连续的属性,生成决策表S=(U,C∪D),其中U={x1,x2,…,xn}代表对象集,C={c1,c2,…,cm}代表条件属性集,D代表决策属性集,n为对象的数量,m为条件属性的数量;

步骤2:计算U关于决策D的划分U/Ind(D)={D1,D2,...Dd},Ind(D)表示对象在决策属性集D上的不可分辨关系, fa(x)和fa(y)分别是对象x和对象y在决策属性a上的取值;将U/Ind(D)={D1,D2,...Dd}映射到决策布尔矩阵,生成n行d列的决策布尔矩阵Fn×d=(dij)n×d∈{0,1},其中步骤3:设定候选的条件属性集 计算B的条件布尔矩阵Ee×n,其中B={b1,b2,…bp}且p≤m;包括步骤3.1:分配GPU显存空间,将CPU端的决策表S=(U,C∪D)拷贝到GPU;

步骤3.2:在GPU端采用CUDA的Thrust库,将对象集U={x1,x2,…,xn}按照B={b1,b2,…bp}的取值在GPU端并行排序,生成排序后的序列T={x1′,x2′,…,xn′}和排序后的对象标号L={l1,l2,…,ln},其中li∈{1,2,…n}表示xi′唯一的标识号;

步骤3.3:在GPU端启动CUDA的kernel核函数,使用多线程并行扫描排序后的序列T,判断相邻对象是否在候选的条件属性集B上满足不可分辨关系,生成T={x1′,x2′,…,xn′}关于B的布尔向量G={g1,g2,…,gn},其中其中 fc(x)和fc(y)分别是对象x和对象y

在条件属性c上的取值;

步骤3.4:将布尔向量G={g1,g2,…,gn}和对象标号L={l1,l2,…,ln}从GPU端拷贝到CPU端;

步骤3.5:在CPU端计算U关于候选的条件属性集B的划分U/Ind(B)={E1,E2,…,Ee},生成关于候选的条件属性集B的e行n列的条件布尔矩阵Ee×n=(eij)e×n∈{0,1},其中步骤4:计算候选的条件属性集B的属性重要度评价函数Θ(D|B),包括步骤4.1:分配GPU显存空间,将条件布尔矩阵Ee×n和决策布尔矩阵Fn×d从CPU端拷贝到GPU端;在GPU端采用CUDA的cuSPARSE稀疏矩阵运算库,并行计算相交矩阵Ke×d=Ee×n×Fn×d=(kij)e×d,其中kij=|Ei∩Dj|,|·|表示集合的基数;

步骤4.2:将属性重要度评价函数分解为 的形式,在GPU端启动CUDA

的kernel核函数,使用多线程并行计算每个评价子函数θ(ij),包括基于正域θPR(ij)、基于Shannon熵θSCE(ij)、基于互补熵θLCE(ij)和基于组合熵θCCE(ij)评价子函数,如下:其中Kij=Ei∩Dj, |·|表示集合的基数,d表示决策属性

的取值数量;

步骤4.3:在GPU端启动CUDA的kernel核函数,使用多线程对所有的评价子函数θ(ij)进行并行求和操作,得到候选的条件属性集B的属性重要度评价函数步骤5:初始化约简集 CAttr=C,其中CAttr为中间局部变量;对任意的条件属性ci∈C,计算属性重要度评价函数Θ(D|C-{ci});对任意的条件属性ci∈C,计算条件属性ci的内部属性重要度Siginner(ci,C,D);如果Siginner(ci,C,D)>0,则将条件属性ci添加到约简集Reduct中,并且从CAttr中删除条件属性ci,即Reduct=Reduct∪{ci},CAttr=CAttr-{ci};

步骤6:计算属性重要度评价函数Θ(D|Reduct),如果||Θ(D|Reduct)-Θ(D|C)||<ε,则得到最终的约简集Reduct,否则继续;其中ε为预先设定的阈值;

步骤7:对任意的条件属性ci∈CAttr,计算属性重要度评价函数Θ(D|Reduct∪{ci});对任意的条件属性ci∈CAttr,计算条件属性ci的外部属性重要度Sigouter(ci,Reduct,D);选择外部属性重要度最高的作为最优属性cj=argmax{Sigouter(ci,Reduct,D)};将最优属性cj添加到约简集Reduct中,并且从CAttr中删除最优属性cj对应的条件属性ci,即Reduct=Reduct∪{ci},CAttr=CAttr-{ci},之后跳转到步骤6。

2.如权利要求1所述的一种基于CUDA的属性约简方法,其特征在于,所述步骤3.5还包括,将条件布尔矩阵Ee×n保存为CSR压缩存储格式。