欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020104609029
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2024-01-05
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于局部和通道组合特征的行人重识别方法,其特征在于,包括以下流程:一、训练流程:对神经网络进行训练,以获得最佳的网络参数;训练数据集中的样本由行人图片x和其对应的行人身份ID(x),ID(x)∈{1,...,C}组成;C代表行人身份总数,一个身份的行人具有多张图片;

二、测试流程:

测试数据集分为查询集和仓库集,查询集包含已知其身份的行人图片,仓库集包含和查询集中行人身份相同的图片以及和查询集中行人身份不同的图片;数据集的构建是先由视角不重叠的监控摄像头拍摄下行人的图片,再由行人检测器(Deformable Parts Model,DPM)自动地标注出行人矩形框,最后保留矩形框中的行人图片,并添加上行人的身份标签,同一行人在查询集和仓库集中的图片的拍摄视角不同;

训练流程具体步骤如下:

步骤1、对训练集中的样本进行采样生成小批量数据:

一个小批量数据中包含P×K张图片,即不同身份的行人P个,每个行人K张图片;如果在训练集中,一个行人的图片数量大于K张,则从中随机采样K张;小于K张,则采样其所有的图片,不够的再重复采样;

步骤2、通过数据增强的方式提升模型的抗遮挡能力:

2‑1、生成一个可以存放不同分辨率图片的图片池Pool;

2‑2、在每张图片输入到网络之前,会以p1概率复制其中一小块图片存入Pool中;假设图片的分辨率为H×W,一小块图片即图片块的分辨率随机落在区间[0.1H,0.2H]×[0.1W,

0.2W]之间,位置也是随机选择;

2‑3、然后以p2概率从Pool中随机挑选一图片块覆盖在该图片上,覆盖的位置随机选择;

步骤3、加载预训练网络:

使用在ImageNet数据集上预训练的ResNet‑50网络,保留该网络全局平均池化Global Average Pooling,GAP层之前的结构,并将最后一个卷积层Convolutional Layer的步长设置为1,将其记作“卷积基网络”;一张分辨率为256×128的图片输入卷积基网络后输出尺寸为16×8×2048的张量特征图T;

步骤4、对通道分组获得每组通道的特征:

将步骤3中得到的尺寸为16×8×2048的张量特征图T沿着通道,即最后一个维度,平均分成4组,每组的张量特征图尺寸为16×8×512,分别记作T1,T2,T3,T4;

步骤5、对张量特征图进行切割获得局部特征:

将步骤4获得的每组张量特征图T1,T2,T3,T4,沿着其水平方向平均切割成4块局部张量特征图,每块局部张量特征图的尺寸为4×8×512,分别记作T11~T14,T21~T24,T31~T34,T41~T44;T经过步骤4和5得到16块局部张量特征图T11~T14,T21~T24,T31~T34,T41~T44;每块局部张量特征图代表着不同位置和不同通道的组合特征;

步骤6、对特征图进行压缩:

对张量特征图T进行卷积,卷积核尺寸为16×8×512,个数为512个,参数随机初始化,得到尺寸为1×1×512的全局特征g;同样对T11~T14,T21~T24,T31~T34,T41~T44分别进行卷积,每块局部张量特征图对应的卷积核尺寸为4×8×512,个数为512,参数随机初始化,得到16个尺寸为1×1×512的局部通道组合特征pc1~pc16;

步骤7、对不同的特征应用不同的损失函数:

对于局部通道组合特征pc1~pc16,分别应用批难样本三元组损失Batch Hard Triplet Loss:式(1)中X代表步骤1采样得到的小批量数据,θ代表网络的参数; 代表第i个行人对应K张图片中的第a张图片, 代表第i个行人对应K张图片中的第p张图片,因两张图片属于同一行人,称之为正样本对; 代表第j个行人对应K张图片中的第n张图片,因 和 属于不同行人,称之为负样本对;fθ(x)代表图片x输入网络运算后输出的特征,D(x,y)代表特征x和特征y的欧几里得距离EuclideanDistance;m是一个常数,约束了两个特征对距离之间的关系,[x]+=max(0,x);对于一个行人的一张图片 来说,遍历该行人对应K张图片中的每张图片 找到特定的 使得 和 分别输入网络运算后得到的两个特征间欧几里得距离最大, 即为一个正难样本对;同时,遍历其余行人的每张图片,共(P‑1)×K张图片,记为 找到特定的 使得 和 分别输入网络运算后得到的两个特征间欧几里得距离最小, 即为一个负难样本对;该损失函数找出每个行人的每张图片对应的正难和负难样本对,并约束正难样本对特征距离和负难样本对特征距离间的关系;

对于特征pc1,其Batch Hard Triplet Loss为:式(2)中 代表从第i个行人的第a张图片中提取的特征pc1, 代表从第i个行人的第p张图片中提取的特征pc1, 代表从第j个行人的第n张图片中提取的特征pc1;

对于全局特征g,分别应用Batch Hard Triplet Loss和Softmax Loss;其Batch Hard Triplet Loss为:

式(3)中 代表从第i个行人的第a张图片中提取的特征g, 代表从第i个行人的第p张图片中提取的特征g, 代表从第j个行人的第n张图片中提取的特征g;在应用Softmax Loss之前,需要将g输入一个全连接层Fully Connected Layer,FC layer;全连接层输出神经元个数为训练集行人身份总数C,全连接层参数随机初始化;全局特征g的Softmax Loss为:式(4)中 代表从第i个行人的第j张图片中提取的特征g, 代表该图片对应的行人身份; 代表FC layer第 个输出神经元对应的权重,Wk代表FC layer第k个输出神经元对应的权重;

该网络总的损失函数为:

式(5)中λ1,λ2,λ3为三个损失的权重,满足λ1+λ2+λ3=1;

步骤8、将步骤3‑6中构建的网络记为N;使用梯度下降算法,对步骤7中损失函数Loss求导并通过反向传播来优化N中的可学习参数;

步骤9、使用空间变换网络对齐特征图:

9‑1、将N中卷积基网络的第4块Res 4 Block输出特征图F4通过一个残差连接块和GAP层得到一个长度为6的向量θ(θ11,θ12,θ13,θ21,θ22,θ23);其中θ11,θ12,θ21,θ22用来缩放和旋转特征图,θ13,θ23用来平移特征图;

9‑2、利用θ11,θ12,θ13,θ21,θ22,θ23对N中卷积基网络的第2块Res 2Block输出特征图F2进s行仿射变换,获得空白特征图F”2;对F2通道c的特征图来说,其上一像素点的坐标为(x ,s t ty),经过仿射变换后变为(x ,y),二者之间的关系为:

9‑3、根据公式(6)对空白特征图F”2从F2上采样像素进行填充,得到对齐后的特征图F2';在仿射过程中,会出现F”2中坐标对应的F2坐标超出F2原始范围时,对于这些坐标,设置其像素值为0;出现F”2中坐标对应的F2坐标不是像素点时,通过双线性插值来填充像素值到这些坐标上:s s

式(7)中 是F”2的c通道上(m,n)位置的像素值, 是F2的c通道上(x ,y)位置的像素值;

步骤10、处理对齐后特征图:

对于对齐后的特征图F'2,将其输入一个新的卷积网络,所述的新的卷积网络是由在ImageNet数据集上预训练的ResNet‑50网络中的Res 3 Block、Res 4 Block、Res 5 Blockalign align堆叠而成,输出和步骤3中特征图T同样尺寸的特征图T ;对于T ,进行和步骤3‑6中相align同的操作, 同样得到1个全局特征g 以及16个局部和通道组合特征 记步align align

骤9‑10中构建的网络为N ,N 是由N中卷积基网络的Res 1 Block、Res 2 Block、Res 

3 Block、Res 4 Block、STN、新的卷积网络中Res 3 Block、Res 4 Block、Res 5 Block、对align全局特征以及局部和通道组合特征进行压缩的卷积层构成;对全局特征g 以及局部和通align道组合特征 使用步骤7中相同的损失函数,优化N 中可学习的参数。

2.根据权利要求1所述的一种基于局部和通道组合特征的行人重识别方法,其特征在于,测试流程具体步骤如下:

align align

步骤1、将一张待查询的行人图片输入N ,将输出的g 和 连接起来得到该行人的描述符 是一个8704维特征向量;

步骤2、仓库集中所有图片同样经过步骤1得到其行人描述符;

步骤3、分别计算待查询行人描述符和仓库集中每一个行人描述符间的cosine距离并保存下来;

步骤4、对所保存的距离按照从小到大的顺序进行排序,并选择其中前k个距离所对应的仓库行人图片,作为该待查询行人的重识别结果;

步骤5、通过对比重识别获得的仓库行人图片的真实身份和待查询行人的身份是否一致来衡量模型的识别性能。