1.一种用于神经疾病的基于体素分析的数据驱动机器学习方法,其特征在于:包括如下步骤:
1)根据对脑区指标的定量测量值进行主成分分析PCA模型训练,过程如下:获得的量化数据组表示为:
其中,n代表总的样本数量;代表每个样本体素的量化指标值;
降维后的数据Q在维度m下被表示为:
其中,满足维度1≤m≤p的部分表示的意思是保留方差为投影空间最大值的正交轴,增量主成分分析用新输入的数据和上一步特征值更新当前的特征值;
通过两个样本协方差矩阵S的前导特征向量得出Q,其中:公式中 K和nj分别表示样本平均值、分类的数目以及类j中的样本数量;因此,推出以下的结果表达:SQi=λiQi,i=1,...m (4)
在该表达式中,λi是矩阵S第i个最大特征向量;
在所操作的样本空间中,的主成分主轴m是解相关的;
2)对所有特征进行提取,过程如下:
在初步处理后,观察考虑特征列表中的每个特征,之后要人工地对特征进行挑选移除;
设样本为X=[X1,...Xj,...Xn]T,其中 每个样本Xj都有一个对应的分类Yj;
单变量特征选择通过单变量统计检验取选择最佳特征;
对获取样本数据去计算单因素方差分析中的p值,对每个样本都是基于计算出的K最高值进行特征进行选择;对所有的样本,去计算病人组与正常控制组在每个体素间的距离和副本以及将最大K值包括进新样本;新样本 是从原样本中获得,它们的Y值是被保留的;
3)为所选出的特征选择最佳分类器模型算法,过程如下:利用这些指数和选择的体素,在这里使用随机森林RF算法训练高分疾病分类模型;在分类器模型部分中,需要做的是从选择出的特征中规划出一个预测函数f(x)去预测y;如果考虑到新的特征队列 和它对应的队列Y,就可以去建立一个随机森林分类器去区分病人及控制样本;每个训练集都是在聚合技术作用下由独立森林树创建的;由以下三步实现:
3.1.采用bootstrap抽样技术从原始数据集中抽取ntree个训练集,每个训练集的大小为原始数据集的三分之二;
3.2.为每一个bootstrap训练集分别建立分类回归树CART,共产生ntree棵决策树构成一片“森林”,随机选择最优属性进行分支,mtry≤M;
3.3.集合ntree棵决策树的预测结果,采用投票的方式决定新样本的类别;
随机森林分类器设置三个参数:森林中决策树的数量ntree、内部节点随机选择属性的个数mtry及终节点的最小样本数nodesize;
4)预测
对于一个新样本,要去量化所有量化指标对于获取测量值矩阵 之后,增量主成分分析提供了增量更新原始主成分分析的方法去获得一个新的增量主成分分析模型;对获得的该模型,去计算增量主成分分析特征向量,而测量值矩阵 的维度会被降为新的Q=[q1,...qm];这些新测量值将重新排列为X。
2.如权利要求1所述的用于神经疾病的基于体素分析的数据驱动机器学习方法,其特征在于:所述步骤4)中,在预测环节,随机森林算法在训练过程中的每次bootstrap抽样,将有三分之一的数据未被抽中,这部分数据被称为袋外数据,随机森林算法就是利用这部分数据进行内部的误差估计。