1.一种基于机器学习的慢性阻塞性肺疾病测试系统,其特征在于,包括:肺部机能检测装置,用于获取被测者肺部机能检测项目及其测量值;处理器,与肺部机能检测装置相连,具有主成分特征分析模块、决策树构建模块和决策树测试模块;显示单元,与处理器相连,用于输出处理器的结果;
所述主成分特征分析模块,建立与被测者肺部机能测量值相对应的第一样本,对所述第一样本进行因子分析,得到基于被测者肺部机能检测项目的若干个主成分特征,建立以若干个主成分特征所对应的样本集合为第二样本;
所述决策树构建模块,以信息增益为度量,构造熵值下降最快的决策树模型;
所述决策树测试模块,用于将所述第二样本随机分为训练集和预测集,训练集用于生成学习器,在学习器的基础上,根据所述决策树模型测试预测集中的第二样本是否表现为慢性阻塞性肺疾病。
2.根据权利要求1所述的系统,其特征在于:还包括筛选模块,用于对所述被测者肺部机能检测项目及其测量值进行筛选,剔除被测者肺部机能非重要检测项目中的测量缺失值。
3.根据权利要求2所述的系统,其特征在于:还包括拟合模块,用于对所述被测者肺部机能重要检测项目中的测量缺失值进行拟合。
4.根据权利要求3所述的系统,其特征在于:还包括转换模块,用于对经筛选和拟合后的被测者肺部机能检测项目测量值进行格式转换。
5.根据权利要求1所述的系统,其特征在于:还包括决策树优化模块,其通过对所述决策树模型剪枝部分节点得到若干候选决策树模型,采用损失函数评价上述各候选决策树,选择损失函数值最小的候选决策树模型作为优化的决策树模型;在所述决策树测试模块中,采用上述优化的决策树模型进行预测。
6.根据权利要求5所述的系统,其特征在于:所述损失函数为决策树模型中所有叶节点的熵之和。
7.根据权利要求1所述的系统,其特征在于:所述主成分特征分析模块包括偏相关性检验模块和因子分析模块;所述偏相关性检验模块,用于检查被测者肺部机能检测项目测量值间的偏相关性;所述因子分析模块,根据上述偏相关性,采用因子分析法对被测者肺部机能检测项目进行去相关化,得到若干个主成分特征。
8.根据权利要求7所述的系统,其特征在于:所述主成分特征分析模块还包括呈现模块,用于呈现主成分特征与所述被测者肺部机能检测项目之间的对应关系。
9.根据权利要求7所述的系统,其特征在于:所述因子分析模块采用降维模块,用于根据样本协方差矩阵的特征值,对样本进行降维,得到所述主成分特征。
10.根据权利要求9所述的系统,其特征在于:所述降维模块中主成分特征的个数通过交叉验证方式或与设定阈值比较得出。