欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2021113747906
申请人: 西南交通大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种标签图生成方法,其特征在于,所述方法包括以下步骤:步骤S1、制作数据集;先采集实际场景中包括不同环境下的人群图像数据,再对数据进行标注;

步骤S2、生成标签图;根据标注好的数据生成标签图,标签图的生成方式如下:其中,B为标注点坐标集合,(x′,y′)为标记点在标签图中的像素坐标,其中x′表示标记点在标签图中横坐标,y′表示标记点在标签图中纵坐标;(x,y)表示图像中任意一点的像素坐标,其中x为图像中任意一点的横坐标,y为图像中任意一点的纵坐标,P(x,y)表示的是图中坐标(x,y)处到与之相距最近的标记点的距离,I(x,y)即为FIDT图中坐标(x,y)处对应点值,I′(x,y)表示本发明所提标签图坐标(x,y)处对应点的值,count表示图片中的真实人数,m、n分别表示图片的宽高,I(xi,yi)表示FIDT图中第i个点的值,(xi,yi)表示FIDT图中第i个点的坐标,其中,xi和yi分别表示FIDT图中第i个点的横纵坐标。

2.根据权利要求1所述的一种基于编解码结构的人群计数定位方法,其特征在于,所述S1中对数据进行标注时,采用头部中心进行标记。

3.一种基于编解码结构的人群计数定位方法,其特征在于,所述方法包括以下步骤:步骤1:构建网络模型,以ResNet50作为编码部分的特征提取网络,在编码结束时融入多尺度特征融合模块,在解码部分采用上采样加卷积的方式进行解码,并通过空间‑通道注意力上采样模块进行高低层特征的融合;

步骤2:利用步骤S1采集的数据、同步骤S2生成的标签进行训练,损失函数设计为欧式距离损失和平均绝对误差相结合的方式,如下所示:其中,L(θ)表示损失函数,Fi为第i幅标签图,Fi(xi,θ)为对应预测图,θ为学习参数,N为图片数量;

步骤3:进行计数定位测试,将图片送入训练好的模型中,若只需计数,将预测图进行积分求和即可,若还需定位,则利用LMDS算法对预测图进行进一步处理,得到定位信息及框图。

4.根据权利要求3所述的一种基于编解码结构的人群计数定位方法,其特征在于,所述步骤1中的特征提取网络,具体由Resnet50的7x7卷积、最大池化层及前三个残差模块构成,其中对将7x7卷积的步长调整为1,其余部分保持同原始的ResNet50不变,第一个残差模块不会压缩图像尺度,后两个残差模块都会将特征图尺度压缩到相应输入的一半,最终将图片尺度压缩为原图的1/8。

5.根据权利要求3或4所述的一种基于编解码结构的人群计数定位方法,其特征在于,所述多尺度特征融合模块包含四个分支,分别由膨胀率为1,2,3,6的四组空洞卷积构成,不同的分支负责捕获不同尺寸的特征,最后按通道进行拼接,通过1x1卷积,进一步融合特征并压缩通道维度。

6.根据权利要求5所述的一种基于编解码结构的人群计数定位方法,其特征在于,特征融合方式如下式:

其中,Fin和Fout分别表示输入特征和输出特征; 表示卷积核大小为k,膨胀率为i为的卷积运算,其中这里的i取值分别为1,2,3,6,分别对应四组膨胀卷积;concat表示特征拼接操作。

7.根据权利要求3或4所述的一种基于编解码结构的人群计数定位方法,其特征在于,所述空间‑通道注意力上采样模块分为空间注意力模块和通道注意力模块,置于解码部分进行使用,且输入包含两个部分:高层特征和浅层特征,其中高层特征满足一次2倍上采样后的尺寸同低层特征相同。

8.根据权利要求7所述的一种基于编解码结构的人群计数定位方法,其特征在于,所述通道注意力模块生成如下:

FC=σ(W1(M(FH)))

其中,FC表示通道注意力权重,W1表示卷积核大小为1的卷积运算,M表示全局最大池化,FH表示高层特征,σ表示Sigmoid激活函数;

空间注意力模块生成如下:

其中,FS和FL分别表示空间注意力权重和浅层特征, 表示按像素求和;

得到上述权重后进行特征融合,如下式:concat表示拼接操作,U表示上采样,Fout表示融合后的输出特征, 表示相乘操作。

9.根据权利要求3所述的一种基于编解码结构的人群计数定位方法,其特征在于,,所述LMDS算法先对预测图进行3x3,步长为1的最大池化,将小于最大值0.39倍的值置为零,再同原始预测图进行对比,所处位置的值未改变的即为峰值点,其坐标即为定位点坐标,也就是人头坐标,再根据下式计算出锚框大小,从而得到定位框图:式中,P为LMSD算法给出的定位点坐标集合,S(x,y)∈P表示坐标(x,y)处锚框的大小,取(x,y)旁距离最近的k个点, 表示第k个点到(x,y)的距离,f和k为超参数,可根据具体目标大小进行调整,这里取0.3和3,w和h分别表示图片的宽和高。