欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2022115934649
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于姿态估计和背景抑制的遮挡行人重识别方法,其特征在于,包括以下步骤:步骤(1)构建基于ViT的行人特征提取骨干网,获得遮挡行人的全局特征fcls和局部特征ff_local,并将局部特征ff_local重组为局部特征图flocal;

步骤(2)通过预训练的ViTPose获得行人图像关键点的热度图fpos和关键点置信度组Vkc,利用步骤(1)获得的局部特征图flocal和热度图fpos获得行人关键点特征组fkeypoints;

步骤(3)构建由Conv和GCN组成的局部特征增强图卷积模块,通过Conv利用全局特征fcls增强行人关键点特征组fkeypoints中每个关键点特征得到局部特征组fkp_en,并通过关键点得到关键点邻接矩阵A,将局部特征组的fkp_en和关键点邻接矩阵A作为GCN的输入,获得最终行人关键点特征ff_keypoints;

步骤(4)构建由全局平均池化和卷积网络组成的注意力背景抑制模块,将步骤(1)获得的局部特征图flocal和步骤(2)获得的热度图fpos输入注意力背景抑制模块,获得输出的行人特征fatt_local,将其切分后作为最终特征;

步骤(5)由行人特征提取骨干网、ViTPose、局部特征增强图卷积模块和注意力背景抑制模块构建成遮挡行人重识别模型,使用步骤(1)中的行人全局特征fcls、步骤(3)中的行人关键点特征ff_keypoints和步骤(4)中的行人特征fatt_local对遮挡行人重识别模型进行训练,得到最终的遮挡行人重识别模型。

2.根据权利要求1所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法,其特征在于,所述行人特征提取骨干网为:采用在ImageNet上预训练过的ViT作为行人特征提取初始网络,在图像输入ViT之前,使用一个卷积网络对图像进行特征提取,如公式(1)所示:x=Conv(X)    (1)

其中X表示行人图像,Conv表示卷积网络,x为卷积网络输出的行人特征。

3.根据权利要求2所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法,其特征在于,获得遮挡行人的全局特征fcls和局部特征ff_local的方法为:对于获得的行人特征x,按照预设的patch大小p进行分割,生成特征图序列 N为可分割的数量,再对xP加上相机视角信息[CAM_VIEW],其维度大小均与xP相同,如公式(2)所示:xP=xP+λ*Ecam_view    (2)

其中λ为超参数,用于表示相机视角信息的权重;Ecam_view为[CAM_VIEW],表示相机视角信息;

为xP加上表示全局特征的[CLS_TOKEN]和位置信息编码[P0S_TOKEN],经过线性编码后可得特征Z,如公式(3)所示;

其中,xcls为[CLS_TOKEN]全局特征向量;linear(·)为线性编码函数;Epos为[POS_TOKEN],表示空间位置;

将获得的特征Z输入ViT,ViT由多个Transformer block堆叠而成,如公式(4)(5)所示:Z′l=MSA(LN(Zl‑1))+Zl‑1 l=1...L    (4)Zl=MLP(LN(Z′l))+Z′l l=1...L    (5)其中,Zl表示第l层Transformer块输出的特征,Z′l为Transformer块内的中间结果,L为总层数,其中,MSA(·)为多头注意力机制、LN(·)为层归一化、MLP(·)为多层感知器,网络输出结果即为最后一层的输出特征,分别为全局特征 和局部特征组ff_local。

4.根据权利要求1‑3任意一项所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法,其特征在于,所述局部特征图flocal的获取方法:对局部特征组ff_local重新排列,表达式如下:flocal=reshape(ff_local)    (6)

其中,reshape(·)为重排列函数。

5.根据权利要求4所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法,其特征在于,所述步骤(2)具体实现过程如下:

2‑1使用在CoCo数据集上预训练的ViTPose提取行人图像的关键点,通过ViTPose获得行人图像中行人关键点的热力图fpos和关键点集合Vkc={V1,V2,...,Vs},其中,Vs是通过行人关键点算法获得人体关键点如公式(7)所示;

fpos,Vkc=ViTPose(Image)    (7)

其中,Vs={kx,ky,kc},kx,ky分别为关键点坐标,kc为关键点置信度;fpos为ViTPose输出的关键点热力图;

2‑2利用获得的局部特征图flocal和热力图fpos,通过向量外积和全局平均池化即可获得S个行人关键点局部特征,如公式(8)所示:其中,GAP为全局平均池化;行人关键点特征组 S为关键点数量,C为特征通道数。

6.根据权利要求5所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法,其特征在于,所述步骤(3)中,获得局部特征组fkp_en的方法:首先行人关键点特征组可表示为公式(9):

然后对每个关键点特征和行人全局特征fcls应用1*1卷积,如公式(10)(11)所示:fkp_conv=Conv1×1(fkeypoints)    (10)fcls_conv=Conv1×1(fcls)    (11)

其中,fkp_conv是每个局部特征卷积之后的特征,fcls_conv是全局特征卷积后的特征;

利用获取的行人关键点特征组fkeypoints和行人全局特征fcls,通过向量数量积、softmax和相加等,计算增强后的关键点的局部特征组为fkp_en,如公式(12),(13)所示:Vsim=Softmax(fkp_conv⊙fcls_conv)    (12)fkp_en=Conv(fkeypoints+w*(fcls_conv+Vsim*fcls))    (13)其中,Conv为卷积操作;w为可学习权重;Vsim为相似度。

7.根据权利要求6所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法,其特征在于,所述步骤(3)中,获得最终行人关键点特征ff_keypoints的方法为:通过行人关键点邻接矩阵A和局部特征组的fkp_en作为图卷积网络的输入,获得图卷积网络输出的最终行人关键点特征ff_keypoints,如公式(14)所示:ff_keypoints=GCN(A,fkp_en)    (14)其中,GCN为图卷积网络,A为预先定义的人体关键点邻接矩阵。

8.根据权利要求7所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法,其特征在于,所述步骤(4)具体实现过程如下:

4‑1将关键点热度图fpos全局平均池化后作为行人关键点特征,补充到局部特征flocal;

4‑2将局部特征图flocal作为一个图结构,即图内有H*W个节点,每个节点是C维特征,首先将局部特征图flocal输入两个1*1的卷积网络,并将其中一个卷积网络的输出转置即可构建节点与节点之间的关系,如公式(15)所示T

Ri,j=Conv(flocal) Conv(flocal)    (15)其中Ri,j是关系特征矩阵,Conv是卷积网络

4‑3利用关系特征矩阵Ri,j获得对应关系的空间感知特征fsp,然后将行人局部特征图flocal、4‑1中行人关键点特征fpos和空间感知特征fsp嵌入链接,如公式(16)(17)所示fsp=Conv(Ri,j)    (16)fconcat=Concat[Conv(flocal),Conv(fsp),Conv(fpos)]    (17)其中,fsp为获得的空间感知特征,Concat(·)为通道链接函数,fconcat为连接后的特征向量,将fconcat输入1*1的卷积网络和Sigmod便可获得空间注意力图fatten,最后,通过空间注意力图fatten与局部特征图flocal相乘即可获得最后的行人特征图fatt_local;

4‑4之后按照行人结构,构建多个分类头,将行人特征图fatt_local划分为4个局部特征f1、f2、f3、f4,对行人图像进行分类。

9.根据权利要求8所述的一种基于姿态估计和背景抑制的遮挡行人重识别方法,其特征在于所述步骤(5)具体实现过程如下:

5‑1使用行人重识别数据集中标注数据作为监督信息,对每个训练批次采用ID损失和困难三元组损失训练网络,ID损失采用交叉熵损失训练网络,其公式如下:其中N为行人类别数,qi是监督标签,pi是预测标签;

困难三元组损失通过随机采样P个身份,每个身份抽取K个实例,组成一个大小为P*K的minibatch;依次选取批次中的每个图片xa作为锚点,选出批次中距离最远的正样本图片xp和距离最近的负样本图片xn组成三元组来训练网络,增强网络的泛化能力;其公式为:

5‑2根据行人的全局特征fcls、最终行人关键点特征组ff_keypoints和行人特征fatt_local划分生成的f1、f2、f3、f4对遮挡行人重识别模型进行训练,得到最终的遮挡行人重识别模型,具体可公式化为:其中,S为行人关键点数量,kc为2‑1中获得的关键点置信度;

5‑3当模型稳定后,即最终遮挡行人重识别模型,在测试阶段,将待查询图片q和测试集图片t输入最终的遮挡行人重识别模型进行特征提取获得q和t的关键点特征,分别为fq和ft,利用图匹配优化比较,可公式化为:其中, 和 分别是图像q和t的第i个关键点置信度;cosine为余弦距离;

5‑4对比查询图片特征与测试集图片是否属于同一类,输出同类的行人图片。