1.一种基于最小二乘支持向量机技术的偏向性分类及参数寻优方法,其特征是,实现分类过程中降低对瑕疵的误分率和对最小二乘支持向量机核参数及惩罚参数的优化;该分类器基于最小二乘支持向量机技术;采用改进的虚拟少数类过采用算法,先使用K近邻算法(K取5)去除孤立样本点,再对边界样本点进行过采样,产生适合于训练的样本数据;使用耦合模拟退火算法,进行两次退火,对最小二乘支持向量机核函数参数sig和惩罚参数gam进行初步寻优,在初步寻优所得参数组合的邻域,采用网格算法进行精细搜索;对比两次搜索得到的参数,确定最终的最优参数组合;整个算法包括以下几个模块:去除孤立样本模块,避免在过采样时受到噪声点影响,产生新的噪声点;
虚拟少数类样本过采样模块,利用改进的虚拟少数类过采样(SMOTE)算法找出瑕疵产品的边界样本,在边界样本和合格产品之间进行过采样,人工合成新的瑕疵样本;
模拟退火算法模块,利用耦合模拟退火(CSA)算法对最小二乘支持向量机核参数和惩罚参数进行初步寻优,获得初步参数值;
网格算法模块,在耦合模拟退火算法得到的初步解邻域使用网格法进一步寻找最优解;
参数对比模块,比较耦合模拟退火算法与网格搜索算法得到的两组参数所对应的误分率,取较低误分率对应的那组参数作为最终的最优参数组合。
2.根据权利要求1所述基于最小二乘支持向量机技术的偏向性分类及参数寻优方法,其特征是:所述去除孤立样本模块,输入为包含有合格样本和瑕疵样本的原训练数据,采用K近邻算法(K取5)计算每个样本xi的5个最近邻,如果5个最近邻的类别均与xi的类别不同,则删去xi,经过此模块处理,去除了原始训练样本数据中的孤立样本,并将结果输送到虚拟少数类样本过采样模块。
3.根据权利要求1所述基于最小二乘支持向量机技术的偏向性分类及参数寻优方法,其特征是,所述虚拟少数类样本过采样模块,对每个瑕疵样本计算其5个最近邻,倘若其中有三个近邻属于合格样本,则判定该瑕疵样本为边界样本;对边界样本进行过采样,即在边界样本与其近邻的三个合格样本之间人工合成新的瑕疵样本,并加入到训练样本数据中,作为最小二乘支持向量机训练时的输入数据。
4.根据权利要求1所述基于最小二乘支持向量机技术的偏向性分类及参数寻优方法,其特征是,所述模拟退火算法模块,对最小二乘支持向量机核函数sig和惩罚参数gam组合进行初步寻优,采用K(K取10)折交叉验证每一组参数解对应的误分率,取误分率最小的那组参数组合作为初步最优解,进行两次退火获得初步最优参数组合[sig,gam]。
5.根据权利要求1所述基于最小二乘支持向量机技术的偏向性分类及参数寻优方法,其特征是,所述网格算法模块,在sig和gam的邻域以步长0.2进行精细搜索,其中两个参数的寻优范围分别为: sig∈(exp{log(sig)-1.5},exp{log(sig)+1.5})
gam∈(exp{log(gam)-2},exp{log(gam)+2})
采用K(K取10)折交叉验证每一组参数解对应的误分率,取误分率最低对应的那组参数组合作为最优参数。
6.根据权利要求1所述基于最小二乘支持向量机技术的偏向性分类及参数寻优方法,其特征是,所述参数对比模块,将耦合模拟退火算法所得的参数组合与网格算法所得结果进行比较,取较低误分率对应的那组参数作为最终的最优参数组合;如果相同的最低误分率对应多组参数,则取gam最低的那组参数最为最优参数,避免模型过学习。