1.一种基于改进朴素贝叶斯的个人收入分类方法,其特征在于该方法包括以下步骤:步骤(1)、获取用于甄别居民收入水平的数据集,其中属性变量包括年龄、工种、学历、性别、工作地点等用于对居民收入水平进行分类的信息;
上述收集的数据集属性变量包括连续型属性和离散型属性;
步骤(2)、对步骤(1)获取的数据集中离散文字型属性进行量化处理:从离散文字型属性中选择一个属性,将其中文字相同的元素用相同的数字表示,文字内容不同的元素不得使用同一数字表示;
步骤(3)、对步骤(1)获取的数据集中连续型属性进行离散化处理:
3.1从数据集中选择连续型属性A;
3.2根据数据集中已存在的分类结果记为C1,C2,…,Cn,将属性A中分属不同类别的元素集合记为Ac1,Ac2,…,Acn;
3.3计算Ac1,Ac2,…,Acn均值μ1,μ2,…,μn和方差
3.4采用高斯公式计算各相邻两个分属类别元素集Aci和Ac(i+1)的交点xi,记为q1,q2,…,qn-1;交点的计算公式如下:其中1≤i≤n-1;
3.5将交点q1,q2,…,qn-1按从小到大的顺序进行排列,并以其为分割点对属性A的所有元素进行分类,构成元素集A1,A2,…,An;
3.6将3.5处理后的同属一类的所有元素用一个常数来代替,属于不同类别的则必须使用不同的常数来代替;
3.7采用步骤3.1-3.6对其他的连续型属性进行离散化处理,直到所有的连续属性皆处理完毕,整理归并;
步骤(4)、对步骤(2)-(3)初步处理后数据集中存在类条件概率为0的情况进行处理;
通过使用拉布拉斯校准来避免0点影响过大的问题,在每一属性的类条件概率对应的属性数量值上加1,从而避免0的出现;
步骤(5)、求出各属性各类的先验概率和类条件概率P(Ai|Cj),其中Ai表示属性A中第i个属性类别,Cj表示分类结果C中第j个类别;
步骤(6)、采用改进的关联规则算法来判断属性之间的相关性,判断出关联度较高的属性:
6.1选择属性类别个数相同的属性,判断同一总分类结果Ck下任意两个属性类别的关联程度:P(Ai|Ck)-P(Bi|Ck),i≤n,k≤n;
若所有关联程度绝对值均小于0.2,则说明在总分类结果Ck中,属性A和B的相关度较高,故需要继续判断其他总分类结果中属性A和B的相关度;若存在大于0.2的情况,则认为这两个属性的相关程度不高,故无需继续进行判断;
6.2若在所有的总分类结果中,属性A和属性B的关联度仍是较高,则从其中任意选择一个属性保留,将另一个属性删除;若两个属性的关联度在各总分类结果下存在偏低的情况,则将两个属性均保留;
6.3对其他属性类别个数相同的属性根据步骤6.1-6.2操作进行相关度判断,并根据结果对数据集中的属性进行删除和保留,直到都所有属性类别个数相同的属性被判断完毕,更新数据集;
步骤(7)、采用属性加权来改变每个属性的权重,进而提升准确率;
7.1各总分类结果下寻求属性A中最大值类条件概率,记为P(Ai|C1),P(Aj|C2),…,P(Ak|Cn);若属性A的属性类别重复出现,则说明属性A的属性类别与总分类结果的关联度偏低,认为属性A不是一个好的属性,故删除之;若属性A的属性类别均不一样,则说明属性A的属性类别与总分类结果的关联度较高,认为属性A是一个好的属性,故保留之,进行步骤7.2;
7.2根据步骤7.1得到的最大值类条件概率,计算属性A的平均置信度,即与总分类结果的关联度:其中T的值越大,说明关联程度越高;
7.3根据步骤7.2得到的属性A的平均置信度,并依据上述步骤得到其他属性的置信度,计算次方系数α=1-T,则属性加权后的公式为 即属性加权后的贝叶斯公式分子取最大值时对应的Ci值;
7.4根据步骤7.1-7.3,对其他的属性进行与总分类结果的相关性判断,并据此进行删除或者加权操作;
步骤(8)、分类判断过程;
多属性的贝叶斯基础公式为:
步骤7)中 则有 求出的Ci即为元素
对应的最大类别,得到所需的分类结果。