1.一种基于深度学习的图像语义分割方法,其特征在于由下述步骤组成:
S1、数据集处理
将图像数据集分为训练图像集和测试图像集,并对训练图像集进行数据增强操作,将训练图像的数量增加到万级单位;
S2、构建深度语义分割网络
深度语义分割网络由并行深度神经网络模块、特征融合模块、Softmax分类层构成,所述的并行深度神经网络模块用于对输入图像进行特征提取,所述特征融合模块将并行深度神经网络的输出特征图进行加权融合得到新的特征图,所述Softmax分类层将像素类别标签预测分值转换成像素类别标签预测概率分布图;
所述的并行深度神经网络模块由第一深度神经网络模块和第二深度神经网络模块组成,且第一深度神经网络模块和第二深度神经网络模块网络结构相同,第一深度神经网络模块的输入为输入图像的RGB图像,第二深度神经网络模块的输入为输入图像的灰度图像;
所述的第一深度神经网络模块由全卷积网络模块、第一坐标通道模块、第一循环层模块、第二坐标通道模块、第二循环层模块、空间金字塔池化模块构成,第一坐标通道模块与第二坐标通道模块的结构相同,第一循环层模块与第二循环层模块的结构相同,所述全卷积网络模块对输入图像进行局部特征提取,所述第一循环层模块用于捕获图像的上下文依赖关系和全局特征信息,所述第一坐标通道模块对全卷积网络模块输出的特征图连接i、j、r坐标通道构成新的特征图,以学习更多的坐标特征信息并提高模型的泛化能力,所述空间金字塔池化模块对第二循环层模块输出的特征图在多个采样率上进行卷积操作,提取不同尺度区域的特征信息;
S3、深度语义分割网络训练及参数学习
S31、网络模型参数初始化:使用ResNet101在ImageNet数据集上的预训练模型对全卷积网络模块进行参数初始化,使用标准均匀分布对第一循环层模块和第二循环层模块进行参数初始化,使用标准高斯分布对空间金字塔池化模块的卷积层进行参数初始化;
S32、使用数据增强后的训练图像集训练深度语义分割网络,生成像素类别预测标签概率分布图,利用预测标签概率和原始标签概率计算预测损失,具体采用混合损失函数L(θ)作为目标函数,L(θ)=L1(θ)+L2(θ)
式中L1(θ)为交叉熵损失函数,L2(θ)为L2正则化项,θ是深度语义分割网络的参数;
所述交叉熵损失函数L1(θ)为:
式中ypq是预测标签概率向量, 是原始标签概率向量,N是每张图片的像素个数,B是批大小,C是像素类别数,ln(.)是求自然对数;
所述L2正则化项L2(θ)为:
式中λ是正则化系数且为正数,N是每张图像的像素个数,B是批大小,S是w的参数个数且S取正整数,w是权重参数;
S33、采用随机梯度下降算法优化目标函数,运用反向传播算法更新网络模型参数,直到目标函数的值不再下降时结束训练;
S4、对测试图像进行语义分割
S41、将测试图像集输入步骤S3训练好的深度语义分割网络;
S42、并行深度神经网络模块对输入的测试图像集进行特征提取
测试图像的RGB图像作为第一深度神经网络模块的输入,测试图像的灰度图像作为第二深度神经网络模块的输入;
第一深度神经网络模块特征提取过程为:全卷积网络模块通过空洞卷积、最大池化、卷积操作对测试图像的RGB图像进行局部特征提取;将全卷积网络模块输出的特征图通过第一坐标通道模块得到新的特征图送入第一循环层模块进行水平和垂直扫描,学习图像的全局特征信息;将第一循环层模块输出的特征图通过第二坐标通道模块得到新的特征图再送入第二循环层模块进行水平和垂直扫描,捕获图像的全局特征信息;将第二循环层模块输出的特征图输入空间金字塔池化模块,在多个采样率上进行卷积操作,提取不同尺度区域的特征信息;
第二深度神经网络模块特征提取过程与第一深度神经网络模块特征提取过程相同;
S43、将第一深度神经网络模块输出的特征图与第二深度神经网络模块输出的特征图进行加权融合得到新的特征图;
S44、将步骤S43的结果送入Softmax分类层进行像素类别标签预测,得到图像中每个像素所属的物体类别,并做双线性插值操作上采样到原图像尺寸,得到精细的语义分割图。
2.根据权利要求1所述的基于深度学习的图像语义分割方法,其特征在于:所述的第一循环层模块由两个双向门限递归单元构成,双向门限递归单元的神经元个数为150。
3.根据权利要求1所述的基于深度学习的图像语义分割方法,其特征在于:所述的空间金字塔池化模块由4个不同采样率的空洞卷积构成,空洞卷积的卷积核大小为3×3,扩张率分别为4、6、8、12。
4.根据权利要求1所述的基于深度学习的图像语义分割方法,其特征在于:所述的步骤S2中i、j、r坐标通道由i坐标通道、j坐标通道、r坐标通道构成,i坐标通道、j坐标通道及r坐标通道均为e×f的坐标矩阵,i坐标通道第1行~第e行的元素依次为0、1、...、e‑1,j坐标通道第1列~第f列的元素依次为0、1、...、f‑1,e、f取正整数,r坐标通道为m为i坐标通道中的任意元素,n为j坐标通道中与m坐标位置相同的元素,将i坐标通道和j坐标通道中的元素线性缩放到[‑1,1]范围内。
5.根据权利要求1所述的基于深度学习的图像语义分割方法,其特征在于:所述的步骤S3中参数学习的学习率按照如下公式进行衰减:式中t为迭代次数,l0是初始学习率,lt是第t次迭代的学习率,power是动量为0.9。