1.基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述方法具体通过以下步骤实现:步骤一、采集松子样品的原始光谱数据样本,样本数量为m,再分别对各个原始光谱数据样本进行预处理,获得预处理后的近红外光谱数据;
步骤二、分别采用LTSA、isomap、LLE与PCA方法提取预处理后的近红外光谱数据特征,获得采用四种方法提取出的四组特征向量;
步骤三、选用boosting集成学习算法建立用于松子蛋白质含量预测的校准模型,并对校准模型进行训练,获得训练好的校准模型;
所述校准模型由四个弱学习器和BP神经网络组成;且所述的四个弱学习器是分别基于步骤二提取出的四组特征向量建立的;
步骤四、对于蛋白质含量待测的松子原始光谱数据,对待测数据进行步骤一和步骤二的处理后,获得待测数据的四组特征向量,将获得的四组特征向量输入校准模型,将校准模型的输出作为蛋白质含量的预测结果。
2.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述步骤一中,分别对各个原始光谱数据样本进行预处理,预处理采用的方法是标准正态变换和SG平滑滤波。
3.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述步骤一的具体过程为:步骤一一、对于第i个原始光谱数据样本,设光程位置序号为j,j=1,2,…,l,l代表光程的总个数, 为利用p阶多项式对第j个光程位置的原始光谱数据进行拟合而得到的近红外光谱数据;
其中,aj′为权值系数,j′=0,1,…,p,p阶多项式拟合的窗口宽度为2q+1,λ为窗口宽度波长范围内的吸光度;
采用最小二乘法,计算通过多项式拟合得到的近红外光谱数据与原始光谱数据间的最小误差ε:其中,xj,λ为第j个光程位置的原始光谱数据,当 时,求得最小误差ε对应的权值系数aj′,j′=0,1,…,p;
步骤一二、采用标准正态变换方法对拟合得到的近红外光谱数据进行标准正态变换,则第i个原始光谱数据样本中第j个光程位置对应的预处理后近红外光谱数据xi,j,SNV为:其中: 为对第i个原始光谱数据样本进行拟合得到的近红外光谱数据中各光程位置数据的平均值,则第i个原始光谱数据样本对应的预处理后近红外光谱数据xi,SNV为:xi,SNV=(xi,1,SNV,xi,2,SNV,…,xi,l,SNV);
步骤一三、重复步骤一一和步骤一二的过程,分别对各原始光谱数据样本进行预处理,分别获得各原始光谱数据样本对应的预处理后近红外光谱数据。
4.根据权利要求3所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述步骤三的具体过程为:步骤三一、基于步骤二获得的四组特征向量,分别采用PLS方法建立四个弱学习器,建立好弱学习器后,将获得的四组特征向量分别输入对应的弱学习器;
利用输入的特征向量对弱学习器进行训练,直至达到设置的最大训练次数时停止训练,获得训练好的弱学习器;
步骤三二、将四个训练好的弱学习器的输出结果作为BP神经网络的输入,利用输入对BP神经网络进行训练,直至达到设置的最大训练次数时停止训练,获得训练好的BP神经网络。
5.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述boosting集成学习算法的集成策略为stacking方法。
6.根据权利要求1所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述步骤二中,采用LTSA方法提取预处理后的近红外光谱数据特征,其具体过程为:设预处理后的近红外光谱数据为Xpre={x1,SNV,x2,SNV,…,xm,SNV},对于光谱点xi,SNV,在Xpre中寻找xi,SNV的邻域内的k-1个光谱点,将包含xi,SNV在内的k个光谱点记为xi1,xi2,...,xik,将由xi1,xi2,...,xik构成的矩阵记为Xi=[xi1,...,xik];
其中:xi为对第i个样本进行预处理获得的近红外光谱数据降维后的d维局部坐标,Qi为降维后的d维子空间的切空间,Θi为d维仿射子空间的局部坐标系,Θi=[θi1,...,θik],θi1为xi1的降维后的局部坐标,||·||为F范数, 为xi与全1矩阵的乘积;
公式(4)的解析解为:
其中:为Xi中全部光谱点数据的平均值, 为 与全1矩阵的乘积,Qi′为 矩阵奇异值分解中最大的d个奇异值对应的左奇异向量,Qi′T为Qi′的转置;
同理,获得每个原始光谱数据样本的预处理后结果的局部坐标系;
记Ti=[ti1,...,tik]为Θi对应的全局坐标,全局坐标Ti与局部坐标Θi存在仿射变换关系:其中:I为单位矩阵,Li为局部仿射变换矩阵,Ei=[εi1,...,εik],εik为xik的重建局部变换误差;
通过最小化重建误差 得到d维仿射子空间的全局坐标T={t1,…,ti,…,tm},ti为第i个原始光谱数据样本的全局坐标,将全局坐标T作为采用LTSA方法提取出的特征向量。
7.根据权利要求6所述的基于集成学习校准模型的松子蛋白质含量预测方法,其特征在于,所述在Xpre中寻找xi,SNV的邻域内的k-1个光谱点,其具体过程为:计算xi,SNV与Xpre中其它任意一个光谱点xi′,SNV的JS散度,i′=1,2,…,m,i≠i′;
其中:DKL(xi,SNV||xi′,SNV)为xi,SNV与xi′,SNV的KL散度,⊙代表xi,SNV与xi′,SNV中对应位置的数据相除;DJS(xi,SNV||xi′,SNV)为xi,SNV与xi′,SNV的JS散度;
计算xi,SNV与Xpre中其它任意一个光谱点xi′,SNV的欧氏距离;
其中:DEU(xi,SNV||xi′,SNV)为xi,SNV与xi′,SNV的欧氏距离;
设xi,SNV对应的蛋白质含量为y,利用DJS(xi,SNV||xi′,SNV)、DEU(xi,SNV||xi′,SNV)和y寻找出xi,SNV的邻域内的k-1个光谱点;
DKNN(xi,SNV||xi′,SNV)=μDJS(xi,SNV||xi′,SNV)+σDEU(xi,SNV||xi′,SNV)+εy (9)其中,μ、σ和ε为常数,DKNN(xi,SNV||xi′,SNV)为xi,SNV与xi′,SNV的最终距离;
将计算出的DKNN(xi,SNV||xi′,SNV)按照从小到大的顺序进行排序,将排在前面的k-1个DKNN(xi,SNV||xi′,SNV)所对应的光谱点作为xi,SNV邻域内的k-1个光谱点。