1.一种室内PM2.5浓度预估方法,其特征在于,包括如下步骤:(1)通过大数据平台获取室外空气质量基础数据;
(2)对所获取的空气质量基础数据进行数据处理后获得标准数据;
(3)通过Apriori算法实现关联因子分析;
(4)建立专家知识库;
(5)构建浓度向量:分别对不同检测物质浓度下正常及异常值在7个因子上进行离散化,利用熵计算离散化后的模型因子之间的分布,得到各因子的7个合理的阈值区间,使这7个因子在该阈值区间上有最大的信息量表示,即形成了7*n维向量;
(6)预测浓度:将离散化后的数据构建成向量,当把所有训练数据全部构建完成后,根据这些数据在空间的分布情况,利用KNN算法,通过调整k值达到最优预测效果,完成建模;
(7)匹配成因:针对异常预警数据,继续使用KNN算法对新样本进行匹配成因以及结合专家知识库给出建议方案。
2.根据权利要求1所述的方法,其特征在于,所述步骤(2)获得标准数据的步骤为:
1)对数据进行处理,清洗操作,主要包括对数据不一致进行纠正,对数据噪音、数据局外音进行消除或识别,对部分遗失缺损的数据进行补充;
2)数据转换:将数据转换成便于数据挖掘的格式;
3)数据规约:在大数据平台上,利用大数据平台的数据处理能力从特征中删除不重要或者不相干的特征,对数据进行再一次检查,确保完整性及正确性。
3.根据权利要求1所述的方法,其特征在于,所述通过Apriori算法实现关联因子分析具体为:
1)对关联因子进行筛选分析判断;
2)使用Apriori算法进行关联因子分析;
3)根据分析结果进行处理,去除关联性低的因子,保留关联性较高的因子,分别为:室外浓度、缝隙高度、缝隙深度、缝隙两侧压差、缝隙形状、缝隙直角数、气密性等级。
4.根据权利要求1所述的方法,其特征在于,所述步骤(4)建立专家知识库具体为:
1)根据所获得的关联因子,将训练样本形成7维向量;
2)收集报警浓度的判定方案及决策意见,进行最终的数据治理、数据筛选、计算,形成初代版本的专家库。
5.根据权利要求1所述的方法,其特征在于,所述步骤(6)中采用KNN算法预测浓度的步骤具体为:
1)将训练样本形式化为特征空间中的加权特征向量,X=(x1,x2,x3……x7)xi表示样本x的第i个特征的值;
2)确定K值,通过交叉验证,取测试准确率最高的值作为K的取值;
3)采用余弦相似性作为距离度量算法计算两个样本之间的相似度;
4)利用相似度对浓度进行预测。
6.根据权利要求5所述的方法,其特征在于,所述步骤(6)中确定K取值的步骤为:
1)计算测试实例到所有训练集实例的距离;
2)所有的距离进行排序,找到k个最近的邻居;
3)k个邻近值对应的结果进行合并,再排序,返回出现次数最多的那个结果;
4)对每一个k,使用验证集计算,记录k对应的准确数目,取准确率最大的k值。
7.根据权利要求1所述的方法,其特征在于,所述步骤(7)中使用KNN算法对新样本进行匹配成因的步骤为:
1)按照类别权重大小成因进行归类,归类方式通过 其中n为KNN算法中的k的取值,αi为相似度,xi为对应向量;
2)判断出预警的原因,并根据专家知识库制定浓度异常建议措施。