欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2018114683187
申请人: 广东工业大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2025-04-03
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种行人检测方法,其特征在于,包括:

步骤s1:接收拍摄的行人图像,进行初始的边界框提取,得到可见部分边界框图;

步骤s2:将所述行人图像输入训练完成的检测器内,将所述检测器中的第N级检测层的输出和所述可见部分边界框图整合得到整合框图后输入至训练完成的语义分割模型内,得到所述语义分割模型输出的语义注意力图以及语义分割损失;

步骤s3:将所述语义注意力图作为所述检测器中第N+1级检测层的输入,得到所述检测器输出的预测边界框图以及检测损失;N+1大于1且不大于所述检测器的检测层数;

步骤s4:计算所述语义分割损失和检测损失之和,得到总损失;

步骤s5:判断所述总损失是否大于预设损失阈值,若大于,按照预设规则调整所述检测器以及所述语义分割模型的内部可调参数,并返回步骤s2;若不大于,将所述预测边界框图输出并显示;

其中,所述检测损失包括回归损失、分类损失和排斥损失;

所述语义分割损失的关系式为:

其中,LSegmentation为所述语义分割损失,γ∈{0,1}表示图像元素点的类型,γ=0表示类型为非人,γ=1表示类型为人,p∈[0,1]为γ=1的类的概率;

所述分类损失的关系式为:

其中,Lclassification为所述分类损失;

所述排斥损失的关系式为:

其中,LRep为所述排斥损失;A为正样本候选框集合,a为A中的一个正样本;B为从A中回a归的预测边界框集合,G为真实边界框集合; 为重叠率最大的真实边界框;B表示A中的正样本a; 为距离回归损失函数;x为图片像素值;

a

表示B和 之间的重叠率;

表示A和G之间的重叠率;

所述回归损失的关系式为:

tx=(x‑xa)/wa,ty=(y‑ya)/ha,tw=log(w/wa),th=log(h/ha),其中,LRegreession为所述回归损失;t=[tx,ty,tw,th],tx,ty为所述预测边界框相对于滑动窗口的中心位置的偏移量,tw为所述预测边界框相对于所述滑动窗口的宽的缩放量,th为所述预测边界框相对于所述滑动窗口的高的缩放量; 为所述真实边界框相对于所述滑动窗口的中心位置的偏移量, 为所述真实边界框相对于所述滑动窗口的宽的缩放量,为所述真实边界框相对于所述滑动窗口的高的缩放量;[x,y,w,h]为所述预测边界框的坐标,x,y为所述预测边界框的中心位置,w为所述预测边界框的宽,h为所述预测边界框的高;[xa,ya,wa,ha]为所述滑动窗口的坐标,xa,ya为所述滑动窗口的中心位置,wa* * * * *为所述滑动窗口的宽,ha为所述滑动窗口的高;[x ,y ,w ,h]为所述真实边界框的坐标,x ,* * *y为所述真实边界框的中心位置,w为所述真实边界框的宽,h为所述真实边界框的高;

所述总损失的关系式为:

L=LRegreession+Lclassification+αLRep+βLSegmentation;α和β为预设平衡参数。

2.根据权利要求1所述的行人检测方法,其特征在于,所述检测器为单级检测器;所述单级检测器为RetinaNet检测网络;所述单级检测器包括5个卷积块C1~C5以及特征金字塔网络,所述特征金字塔网络包含三个卷积层P3~P5,P3~P5与C3~C5进行组合;所述第N级检测层具体为第二卷积块C2,所述第N+1级检测层具体为第三卷积块C3。

3.根据权利要求2所述的行人检测方法,其特征在于,所述语义分割模型包括五个卷积块B3~B7、点乘器以及计算模块;其中,所述整合框图输入B3以及所述点乘器,B3输出至B4,B4输出至B5,B5分别输出至B6和B7,B7输出至所述点乘器;所述点乘器将所述整合框图和B7的输出进行点乘,得到所述语义注意力图;B6输出语义分割模型输出的预测结果至所述计算模块;所述计算模块依据B6输出的预测结果以及真实边界框计算得到所述语义分割损失;其中,所述B6和B7采用sigmoid函数作为激励函数。

4.根据权利要求3所述的行人检测方法,其特征在于,所述B4和B5为空洞卷积块。

5.一种行人检测装置,其特征在于,包括:

可见框提取模块,用于接收拍摄的行人图像,进行初始的边界框提取,得到可见部分边界框图;

语义分割模块,用于将所述行人图像输入训练完成的检测器内,将所述检测器中的第N级检测层的输出和所述可见部分边界框图整合得到整合框图后输入至训练完成的语义分割模型内,得到所述语义分割模型输出的语义注意力图以及语义分割损失;

检测模块,用于将所述语义注意力图作为所述检测器中第N+1级检测层的输入,得到所述检测器输出的预测边界框图以及检测损失;N+1大于1且不大于所述检测器的检测层数;

损失计算模块,用于计算所述语义分割损失和检测损失之和,得到总损失;

收敛验证模块,用于判断所述总损失是否大于预设损失阈值,若大于,按照预设规则调整所述检测器以及所述语义分割模型的内部可调参数,重复触发所述语义分割模块;若不大于,将所述预测边界框图输出并显示;

其中,所述检测损失包括回归损失、分类损失和排斥损失;

所述语义分割损失的关系式为:

其中,LSegmentation为所述语义分割损失,γ∈{0,1}表示图像元素点的类型,γ=0表示类型为非人,γ=1表示类型为人,p∈[0,1]为γ=1的类的概率;

所述分类损失的关系式为:

其中,Lclassification为所述分类损失;

所述排斥损失的关系式为:

其中,LRep为所述排斥损失;A为正样本候选框集合,a为A中的一个正样本;B为从A中回a归的预测边界框集合,G为真实边界框集合; 为重叠率最大的真实边界框;B表示A中的正样本a; 为距离回归损失函数;x为图片像素值;

a

表示B 和 之间的重叠率;

表示A和G之间的重叠率;

所述回归损失的关系式为:

tx=(x‑xa)/wa,ty=(y‑ya)/ha,tw=log(w/wa),th=log(h/ha),其中,LRegreession为所述回归损失;t=[tx,ty,tw,th],tx,ty为所述预测边界框相对于滑动窗口的中心位置的偏移量,tw为所述预测边界框相对于所述滑动窗口的宽的缩放量,th为所述预测边界框相对于所述滑动窗口的高的缩放量; 为所述真实边界框相对于所述滑动窗口的中心位置的偏移量, 为所述真实边界框相对于所述滑动窗口的宽的缩放量,为所述真实边界框相对于所述滑动窗口的高的缩放量;[x,y,w,h]为所述预测边界框的坐标,x,y为所述预测边界框的中心位置,w为所述预测边界框的宽,h为所述预测边界框的高;[xa,ya,wa,ha]为所述滑动窗口的坐标,xa,ya为所述滑动窗口的中心位置,wa* * * * *为所述滑动窗口的宽,ha为所述滑动窗口的高;[x ,y ,w ,h]为所述真实边界框的坐标,x ,* * *y为所述真实边界框的中心位置,w为所述真实边界框的宽,h为所述真实边界框的高;

所述总损失的关系式为:

L=LRegreession+Lclassification+αLRep+βLSegmentation;α和β为预设平衡参数。

6.根据权利要求5所述的行人检测装置,其特征在于,所述检测器为单级检测器;所述单级检测器为RetinaNet检测网络;所述单级检测器包括5个卷积块C1~C5以及特征金字塔网络,所述特征金字塔网络包含三个卷积层P3~P5,P3~P5与C3~C5进行组合;所述第N级检测层具体为第二卷积块C2,所述第N+1级检测层具体为第三卷积块C3。

7.根据权利要求6所述的行人检测装置,其特征在于,所述语义分割模型包括五个卷积块B3~B7、点乘器以及计算模块;其中,所述整合框图输入B3以及所述点乘器,B3输出至B4,B4输出至B5,B5分别输出至B6和B7,B7输出至所述点乘器;所述点乘器将所述整合框图和B7的输出进行点乘,得到所述语义注意力图;B6输出语义分割模型输出的预测结果至所述计算模块;所述计算模块依据B6输出的预测结果以及真实边界框计算得到所述语义分割损失;其中,所述B6和B7采用sigmoid函数作为激励函数。

8.一种行人检测设备,其特征在于,包括:

存储器,用于存储计算机程序;

处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述的行人检测方法的步骤。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的行人检测方法的步骤。