欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022116503912
申请人: 重庆邮电大学
专利类型:发明专利
专利状态:授权未缴费
专利领域: 计算;推算;计数
更新日期:2025-04-02
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于多分支渐进嵌入的人群计数方法,其特征在于,包括以下步骤:步骤1:将一张经过处理的包含人群的真实场景的图片输入一个特征提取网络来提取基本特征;

步骤2:将步骤1提取的基本特征输入背景过滤模块BAF,提出利用空洞卷积和Sigmoid生成在背景区域权重为0,人群区域权重大于0的注意力图;

步骤3:将步骤1提取的特征输入串联多尺度模块SMM,在此模块中由最大池化和平均池化两个分支生成特征图,其中每一个阶段池化大小不同,生成的特征图大小也就不一致,以此来提取多尺度信息;

步骤4:先将步骤1提取的特征输入密度图生成模块,然后经过一个解码模块与步骤2的注意力图进行元素乘,然后与多尺度信息进行通道级联,生成中间密度图;

步骤5:将所有阶段的损失函数相加,其中利用提出的多尺度一致性结构损失作为密度图的损失函数来衡量预测的密度图和groundtruth之间的相似性,用二进制交叉熵作为注意力图的损失函数来判断背景区域和人群区域分类是否正确。

2.根据权利要求1所述的一种基于多分支渐进嵌入的人群计数方法,其特征在于,所述步骤1将一张经过处理的包含人群的真实场景的图片输入一个特征提取网络来提取基本特征,具体包括以下步骤:A1由于人群计数的数据集中的标签是位于人头的点注释,先将点注释转换为密度图,人群图像中标注的公式如下如果xi位置处有一个人头,将其表示为δ(x‑xi),这个函数导致每个xi都独立与密度图上,需要每个不同的xi所对应的像素对应场景中不同大小的区域;因此,使用高斯核函数对每一个点注释进行模糊生成密度图公式如下:其中 是具有方差σi的高斯核;每个像素的方差σi由到其k个最近邻的平均距离di来确定,N是图像中总的人数,人头xi的扩散范围与其K近邻个人头的平均距离成正相关, 表示在离人头xi最近K个人头的平均距离,β是一个权重,取0.3;

A2对于特征提取网络,采用VGG16网络的前13层,首先输入一张图片经过两个3*3的卷积得到特征V1,然后经过一个最大池化层和两层3*3的卷积得到特征V2,大小为原图的1/2;

以此类推经过13层卷积和四个最大池化层得到5个特征(V1,V2,V3,V4,V5),分别对应原图大小的1,1/2,1/4,1/8,1/16;

A3由于V5是深层网络输出的结果,尽管有深层的语义信息但缺失了低级特征,而这些低级特征对模型又是不可缺少的,所以使用跳跃连接的方式将低级特征和高级特征进行融合来补充这种信息缺失。

3.根据权利要求2所述的一种基于多分支渐进嵌入的人群计数方法,其特征在于,所述步骤A2的特征提取网络结构具体为:C(64,3)‑C(64,3)‑M‑C(128,3)‑C(128,3)‑M‑C(256,3)‑C(256,3)‑C(256,1)‑M‑C(512,

3)‑C(512,3)‑C(512,1)‑M‑C(512,3)‑C(512,3)‑C(512,1)‑M其中C表示卷积,里面的第一个参数表示输出通道数,第二个参数表示卷积核的大小,M表示最大池化,用公式表示为:Vi=fvgg(I)     (3)

其中I表示输入图像。

4.根据权利要求3所述的一种基于多分支渐进嵌入的人群计数方法,其特征在于,所述步骤2利用背景过滤模块BAF生成注意力图具体步骤包括:B1首先生成注意力图groundtruth,使用高斯核函数来将点注释变为一片区域的值,具体公式如下其中 表示未处理前的点注释groundtruth,Z表示高斯模糊后的groundtruth,表示高斯核函数。设置μ=3,ρ=2,再设置一个超过阈值,当像素值高于阈值赋值为1,低于阈值的像素赋值为0,设置阙值为0.001,由此生成的注意力图groundtruth,可以引导模型更聚焦于人头及其周围区域;

B2将V5输入背景过滤模块,整个模块也是分为5个阶段;首先V5输入后经过连续的空洞率为2的空洞卷积,在每一个阶段添加一个输出层,具体为经过空洞卷积后输入一个卷积大小为3,输出通道为1的卷积,再经过一个sigmoid层输出注意力图:ti=sigmoid(Conv3*3(Cd(ti‑1,2))) (5)其中Cd表示空洞卷积,2表示空洞率为2,Conv3*3表示3*3的卷积;整个背景过滤器的详细结构:C(256,3)‑U‑C(256,3)‑U‑C(128,3)‑U‑C(128,3)‑U‑C(64,3);

B3得到生成的注意力图后,每一个ti使用生成的注意力图进行监督,由此生成更准确质量更高的注意力图;生成的注意力图,在人群密集的区域权重大,在背景区域权重为0,使模型将更多的计算放在人群区域,从而得到更精准的计数结果。

5.根据权利要求4所述的一种基于多分支渐进嵌入的人群计数方法,其特征在于,所述步骤3通过串联多尺度模块(SMM)从全局到局部提取多尺度信息,具体包括:C1将整个模块分为5个阶段,每个阶段采用不同池化大小的池化层进行处理。

C2、每一个阶段采用双流模型,上流是最大池化层,下流是平均池化层。采用双流模型的目的是为了减少信息损失;在每个池化层后跟一个1*1的卷积以在不改变大小的情况下跨通道整合上下文信息;最后将双流模型的输出Concatenate,再经过一个门控函数输出;

具体的公式表示为:

Pu=Conv1*1M(Si,k) (6)

Pd=Conv1*1Avg(Si,k) (7)

Si‑1=U(Conv1*1(Pu+Pd)) (8)

其中Si表示上一个阶段的输出,门控函数在本发明中使用1*1的卷积,M表示最大池化,Avg表示平均池化,U表示上采样,K表示池化大小;

C3采用不同的池化大小从左到右的池化大小依次为1,2,3,6,12,这样模型可以先提取全局信息,然后通过缩小池化大小提取局部信息在一定程度上使尺度变化平滑且连续;使用12,6,3,2,1顺序的池化大小和3,6,12,18,24的池化大小。

6.根据权利要求5所述的一种基于多分支渐进嵌入的人群计数方法,其特征在于,所述步骤4经过一个解码模块与步骤2的注意力图进行元素乘,然后与多尺度信息进行通道级联,生成中间密度图,具体步骤包括:D1.,设置一个编码和解码的结构,解码具体为:首先V5输入解码模块,经过两个3*3的卷积输出为P5,P5需要与前面的低级特征V4 Concatenate,将P5上采样到V4的大小,然后再经过一个3*3的卷积与V4 Concatenate输出P4,以此类推分别输出P5,P4,P3,P2,P1,公式表示如下:Pi=deconder(vi)     (9)

D2.生成关注人群区域的注意力图,将注意力图与解码后的Pi进行元素乘的操作,公式表示如下:其中 表示元素乘;

D3.生成有尺度信息的特征,还需要与ti进行通道级联的操作,公式表示如下:Pi=Pi+Si     (11)

此时每一个阶段的输出即滤除了背景噪声,也适应了头部尺寸的变化;

D4.将Pi输入一个空洞率为2的卷积,然后输入一个3*3的卷积但是输出通道数为1输出中间密度图,然后使用密度图的groundtruth进行监督。其中空洞卷积的具体结构:C(512,

3)‑U‑C(256,3)‑U‑C(128,3)‑U‑C(64,3)‑U‑C(64,3);具体过程公式表示如下:Di=S(Conv1*1(Cd(Pi,2))) (12)

其中S表示监督,Di表示中间密度图。

7.根据权利要求6所述的一种基于多分支渐进嵌入的人群计数方法,其特征在于,所述步骤5利用多尺度一致性结构损失作为密度图的损失函数,用二进制交叉熵作为注意力图的损失函数,具体步骤包括:E1.引入衡量两幅图片相似度的指标SSIM,分别从亮度,对比度和结构三方面度量图像相似度,SSIM取值范围[0,1],值越大,表示图像失真越小,公式如下:

2 2

其中μx是x的平均值,μy是y的平均值,σx 是x的方差,σy是y的方差,σxy是x和y的协方差,

2 2

c1=(k1,L) ,c2=(k2,L) 是用来维持稳定的常数;L是像素值的动态范围;根据指标定义,设置k1=0.01,k2=0.03;

E2.提出同时考虑结构相似性和计数精度的多尺度一致性结构损失,公式定义如下:其中DM是groundtruth, 是预测的密度图,Pool表示用平均池化下采样到 大小,其中K的值为3,具体来说将预测的密度图下采样到1,1/2,1/4大小再采用SSIM度量;

E3.除此之外,由于注意力图属于二分类问题,使用二进制交叉熵作为注意力图的损失,公式定义如下:其中 是注意力图groundtruth,Pi表示预测的注意力图,总的损失函数为两部分的加权和:L=Ls+λLatt (16)

由于生成注意力图与生成密度图相比属于较简单的任务,所以设置λ=0.1。