欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018105374150
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于异构迁移的数据集扩充方法,包括以下步骤:

(1)按照预定义的视图类型,提取源项目数据集中每个样本的与视图类型对应的所有特征,形成视图,每种类型的视图构成一个视图集;

(2)针对第i种视图,基于BP神经网络,利用N个视图集分别构建迁移向该第i种视图的N-1个异构迁移模型,其中,i=1,2,3……,N-1,N,N为视图类型的总个数;

(3)针对无类标样本的每个已知视图,分别利用与已知视图对应的N-1个异构迁移模型对已知视图进行异构迁移,生成N-1个迁移视图,此N-1个迁移视图与已知视图组成拟真样本;

(4)构建与每种视图对应的视图分类器;

(5)利用视图分类器对每个拟真样本的所有视图进行分类,根据所有视图的分类结果对拟真样本进行择优筛选,并将筛选的结果添加到源项目数据集中,实现对数据的扩充。

2.如权利要求1所述的基于异构迁移的数据集扩充方法,其特征在于,根据源项目数据集中包含的所有特征定义N种视图类型,每种视图类型对应至少一种特征。

3.如权利要求1所述的基于异构迁移的数据集扩充方法,其特征在于,在构建异构迁移模型前,对每个视图集中每个样本的特征做归一化处理,具体过程为:针对样本的特征x,利用公式(1)实现对特征x的归一化,

*

其中,x 为对特征x归一化的结果,min为源项目数据集中包含的所有特征中的最小值,max为源项目数据集中包含的所有特征中的最大值。

4.如权利要求1所述的基于异构迁移的数据集扩充方法,其特征在于,步骤(2)包括:设定BP神经网络的输入层神经元的数量为输入视图对应的特征数量,输出层神经元的数量为迁移视图对应的特征数量,隐藏层的层数与每个隐藏层神经元的数量交叉验证的方法确定最佳数值;

利用输入视图对应的视图集和迁移视图对应的视图集对定义的BP神经网络进行训练,当满足训练终止条件时,获得输入视图对应的视图类型相关于输出视图对应的视图类型的异构迁移模型。

5.如权利要求1所述的基于异构迁移的数据集扩充方法,其特征在于,步骤(4)包括:以每个视图集中每个视图对应的特征作为输入,以每个视图对应的类标作为训练目标,对SVM分类器进行训练,以获得与每种视图对应的视图分类器。

6.如权利要求1所述的基于异构迁移的数据集扩充方法,其特征在于,步骤(5)包括:利用步骤(1)的方法对每个拟真样本进行视图分割,获得每个拟真样本的N个视图,并将N个视图分别输入到与视图对应的N个视图分类器中,经计算获得N个视图的类标;

针对N个视图的类标不一致的拟真样本,删除该拟真样本;

针对N个视图的类标一致的拟真样本,以所有视图分类器给出的类标置信度的平均值作为该拟真样本的排序标准,根据排序标准对所有N个视图的类标一致的拟真样本进行排序,选择排序标准较高的前k个拟真样本及该k个拟真样本的类标添加到源项目数据集中,实现对数据的扩充。

7.如权利要求1所述的基于异构迁移的数据集扩充方法,其特征在于,针对无类标样本,利用步骤(1)的方法对无类标样本进行视图提取,获得无类标样本的已知视图。

8.一种基于异构迁移的软件缺陷预测方法,包括以下步骤:

(a)利用权利要求1~7任一项所述的数据扩充方法对源项目数据集进行扩充;

(b)以扩充后的源项目数据集中每个样本对应的特征作为输入,以每个样本对应的类标作为训练目标,对SVM分类器进行训练,以获得缺陷分类器;

(c)将待测样本输入到缺陷分类器中,经计算获得待测样本的类标,以实现对待测样本的缺陷预测。

9.一种基于异构迁移的软件缺陷预测方法,包括以下步骤:

(a)’利用权利要求1~7任一项所述的数据扩充方法对源项目数据集进行扩充;

(b)’针对扩充后的源项目数据集,按照步骤(1)构建N个新视图集后,利用步骤(4)构建与每种视图对应的新视图分类器;

(c)’按照步骤(1)提取待测样本的视图,并将待测样本的每个视图输入到对应的新视图分类器中,根据给出的置信度获得每个视图的类标;

(d)’综合待测样本的每个视图的类标,获得待测样本的类标,以实现对待测样本的缺陷预测;

所述的步骤(1)和步骤(4)均为权利要求1~7任一项所述的数据扩充方法中的步骤(1)和步骤(4)。

10.如权利要求基于异构迁移的软件缺陷预测方法,其特征在于,步骤(d)’中,选择个数最多的视图类标作为待测样本的类标。