知嘟嘟-专利交易平台_专利购买_专利出售-买专利,上嘟嘟

欢迎来到知嘟嘟！联系电话：13095918853 卖家免费入驻，海量在线求购！卖家免费入驻，海量在线求购！

嘟嘟会员

帮助中心网站地图

查出售查高校查求购查年费

我要发布

首页转移热力图Hot 专利交易委托购买高校专区科技服务专利求购年费查询行业资讯

联系电话：13095918853

知嘟嘟经纪人

一种基于改进朴素贝叶斯的个人收入分类方法

￥50300

专利号： 201710323947X

申请人：杭州电子科技大学

专利类型：发明专利

专利状态：已下证

专利领域：计算；推算；计数

更新日期：2024-01-05

缴费截止日期：暂无

价格&联系人

年费信息

委托购买

专利简介

专利详情

委托购买说明

需准备材料

常见问题

摘要:

权利要求书:

1.一种基于改进朴素贝叶斯的个人收入分类方法，其特征在于该方法包括以下步骤：步骤(1)、获取用于甄别居民收入水平的数据集，其中属性变量包括年龄、工种、学历、性别、工作地点等用于对居民收入水平进行分类的信息；

上述收集的数据集属性变量包括连续型属性和离散型属性；

步骤(2)、对步骤(1)获取的数据集中离散文字型属性进行量化处理：从离散文字型属性中选择一个属性，将其中文字相同的元素用相同的数字表示，文字内容不同的元素不得使用同一数字表示；

步骤(3)、对步骤(1)获取的数据集中连续型属性进行离散化处理：

3.1从数据集中选择连续型属性A；

3.2根据数据集中已存在的分类结果记为C1，C2，…，Cn，将属性A中分属不同类别的元素集合记为Ac1，Ac2，…，Acn；

3.3计算Ac1，Ac2，…，Acn均值μ1，μ2，…，μn和方差

3.4采用高斯公式计算各相邻两个分属类别元素集Aci和Ac(i+1)的交点xi，记为q1，q2，…，qn-1；交点的计算公式如下：其中1≤i≤n-1；

3.5将交点q1，q2，…，qn-1按从小到大的顺序进行排列，并以其为分割点对属性A的所有元素进行分类，构成元素集A1，A2，…，An；

3.6将3.5处理后的同属一类的所有元素用一个常数来代替，属于不同类别的则必须使用不同的常数来代替；

3.7采用步骤3.1-3.6对其他的连续型属性进行离散化处理，直到所有的连续属性皆处理完毕，整理归并；

步骤(4)、对步骤(2)-(3)初步处理后数据集中存在类条件概率为0的情况进行处理；

通过使用拉布拉斯校准来避免0点影响过大的问题，在每一属性的类条件概率对应的属性数量值上加1，从而避免0的出现；

步骤(5)、求出各属性各类的先验概率和类条件概率P(Ai|Cj),其中Ai表示属性A中第i个属性类别，Cj表示分类结果C中第j个类别；

步骤(6)、采用改进的关联规则算法来判断属性之间的相关性，判断出关联度较高的属性：

6.1选择属性类别个数相同的属性，判断同一总分类结果Ck下任意两个属性类别的关联程度：P(Ai|Ck)-P(Bi|Ck)，i≤n，k≤n；

若所有关联程度绝对值均小于0.2，则说明在总分类结果Ck中，属性A和B的相关度较高，故需要继续判断其他总分类结果中属性A和B的相关度；若存在大于0.2的情况，则认为这两个属性的相关程度不高，故无需继续进行判断；

6.2若在所有的总分类结果中，属性A和属性B的关联度仍是较高，则从其中任意选择一个属性保留，将另一个属性删除；若两个属性的关联度在各总分类结果下存在偏低的情况，则将两个属性均保留；

6.3对其他属性类别个数相同的属性根据步骤6.1-6.2操作进行相关度判断，并根据结果对数据集中的属性进行删除和保留，直到都所有属性类别个数相同的属性被判断完毕，更新数据集；

步骤(7)、采用属性加权来改变每个属性的权重，进而提升准确率；

7.1各总分类结果下寻求属性A中最大值类条件概率，记为P(Ai|C1)，P(Aj|C2)，…，P(Ak|Cn)；若属性A的属性类别重复出现，则说明属性A的属性类别与总分类结果的关联度偏低，认为属性A不是一个好的属性，故删除之；若属性A的属性类别均不一样，则说明属性A的属性类别与总分类结果的关联度较高，认为属性A是一个好的属性，故保留之，进行步骤7.2；

7.2根据步骤7.1得到的最大值类条件概率，计算属性A的平均置信度，即与总分类结果的关联度：其中T的值越大，说明关联程度越高；

7.3根据步骤7.2得到的属性A的平均置信度，并依据上述步骤得到其他属性的置信度，计算次方系数α＝1-T，则属性加权后的公式为即属性加权后的贝叶斯公式分子取最大值时对应的Ci值；

7.4根据步骤7.1-7.3，对其他的属性进行与总分类结果的相关性判断，并据此进行删除或者加权操作；

步骤(8)、分类判断过程；

多属性的贝叶斯基础公式为：

步骤7)中则有求出的Ci即为元素

对应的最大类别,得到所需的分类结果。