欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 202010156966X
申请人: 浙江工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-12-11
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于深度学习的城市道路场景语义分割方法,其特征在于,所述方法包括以下步骤:

1)、车辆前端的图像采集:定时采集城市道路图像,设定的时间间隔为T,并对分辨率为h×w的图像进行图像检测,得到有效的图像;然后对得到有效的图像进行标注,采用公开的图像界面的标注软件Labelme3.11.2进行标注,通过其场景分割标注功能,将图像上的车辆、行人、自行车、交通信号灯和霓虹灯物体框定并标注为不同的类别,生成的标注图像通过不同灰度级来反映不同类的物体,从标注图像的不同灰度得到灰度表list和图像中所存物体类别K;

2)、标注图像与原图像输入数据扩充:将图像随机裁剪、拼接或添加不同类型噪声,再通过图像仿射矩阵对图像变换,仿射变换参见公式(1):仿射矩阵中sx表示横向平移量和sy表示纵向平移量,c1表示图像横坐标放大或缩小倍数,c4表示纵坐标放大或缩小的倍数,c2和c3控制图像剪切变换,(a,b)表示原像素位置,′ ′(a ,b)为变换后位置,最后通过填充和裁剪等变换,保持图像的原有分辨率,得到数据集;

3)、使用数据扩充后的图像和标注图像进行网络的训练,残差U‑net网络由四个部分组成,分别是下采样部分、桥梁部分、上采样部分和分类部分;

图像长度h,图像宽度w,损失函数大小L,网络迭代次数epochs,批量处理大小batch_size和验证集比例rate,数据集将通过rate分为训练集和验证集,训练时按batch_size分批输入残差U‑net网络中进行训练,通过网络输出的预测图像与实际标签图像计算L,并反向传播调节网络中的参数使L输出趋于最小化,反复训练网络到迭代次数,在迭代过程中通过验证集调整网络参数,最后得到最优的网络模型;

4)路况分类:修改采集时间间隔T,将后续得到的图像输入训练好的深度学习模型中,输出预测的语义分割图像,并将图像中不同灰度回传给处理器,车辆识别出前方位置存在的物体类别;

所述步骤3)中,下采样部分分为四级,各级均由一个残差网络组成,分别是第一级到第四级残差网络,第一级残差网络内各层连接顺序为:卷积层、批归一化层、softmax函数层、卷积层和融合层,最后通过恒等连接的方式在融合层将输入图像与处理后的特征图像融合,第二级到四级残差网络各层的形式相同,其连接顺序为:批归一化层、softmax函数层、卷积层、批归一化层、softmax函数层、卷积层和融合层,最后也通过恒等连接的方式在融合层将输入的特征图像与处理后的特征图像融合;卷积层由3×3的卷积核构成,各级的两个卷积核维度分别为64、128、256和512,最后各级通过2×2步长为2的池化层进行相连,其维度变化与各级的卷积层相同;

所述步骤3)中,桥梁部分为网络高底维度信息拼接做准备,它由两层批归一化层、两层softplus函数层、两层3×3维度为1024的卷积层构成,无融合层,各层的连接顺序与第二级残差网络相同,最后通过上采样层将特征图像调整到拼接的大小;

所述步骤3)中,上采样部分也通过四级残差网络组成,分别是第五级到第八级残差网络,残差网络的形式和各层的连接方式与下采样部分各级残差网络基本相同,只是在第五到第七级残差网络的恒等连接通过一个1×1的卷积层来替代,而第八级残差网络不变,上采样各级残差网络内卷积层维度分别是512、256、128和64,各级之间通过上采样层和拼接层连接,拼接层将对应尺寸的高低维度信息进行拼接,拼接措施如下:(3.1)、第四级残差网络的输出经过池化层后的特征图像与桥梁部分输出的特征图像进行拼接;

(3.2)、第三级残差网络的输出经过池化层后的特征图像与第五级残差网络的输出经过上采样层后的特征图像进行拼接;

(3.3)、第二级残差网络的输出经过池化层后的特征图像与第六级残差网络的输出经过上采样层后的特征图像进行拼接;

(3.4)、第一级残差网络的输出经过池化层后的特征图像与第七级残差网络的输出经过上采样层后的特征图像进行拼接;

拼接后特征图像的维度发生变化,使用替代恒等连接的1×1卷积层调整特征图像维度,四个1×1卷积层维度分别为512、256、128和64,最后在融合层进行特征图像的融合;

所述步骤3)中,分类部分通过1×1的卷积层和softmax层组成,由于城市道路图像分割涉及车辆、行人、自行车、交通信号灯、霓虹灯和背景六个类,所以通过1×1的卷积层得到6个通道的特征图像,但原始特征图像的像素值表示的不是概率值,所以通过softmax层将输出转换为概率分布,softmax函数,参见公式(2):其中dk(x)表示像素x是在通道k上的取值,K表示物品类别数量,gk(x)表示像素x属于k类的概率,gk(x)∈[0,1],各通道中概率最大的就是所对应的类;

然后使用交叉熵损失函数来评估预测结果与实际的偏差,损失函数,参见公式(3):

其中t(x)表示像素x所对应的类,所以gt(x)(x)表示该类的概率, 表示标注图像对应像素x属于k类的概率,所以损失函数的值越小表示预测图像和标注图像越相近,通过损失函数反向传递,对神经网络内部参数进行不断的优化,使损失函数不断减少趋于理想取值。