欢迎来到知嘟嘟! 联系电话:13095918853 卖家免费入驻,海量在线求购! 卖家免费入驻,海量在线求购!
知嘟嘟
我要发布
联系电话:13095918853
知嘟嘟经纪人
收藏
专利号: 2020103646016
申请人: 杭州电子科技大学
专利类型:发明专利
专利状态:已下证
专利领域: 计算;推算;计数
更新日期:2023-07-19
缴费截止日期: 暂无
价格&联系人
年费信息
委托购买

摘要:

权利要求书:

1.一种基于图卷积神经网络的弱监督目标检测方法,其特征在于通过引入只检测到物体一部分的伪标注框作为弱监督目标检测网络的监督条件,通过多实例网络只检测到物体的一部分而不是覆盖全部物体;利用图卷积神经网络把检测为物体框的邻近且相交的候选框学习物体框的特征表示;因为和物体框相交的候选框也是物体的一部分,通过学习检测为物体的框的特征表示来改变候选框的特征表示,邻近的框学习检测为物体的框的特征;

候选框和检测为物体框的特征表示就会相似,弱监督网络测试的时候会把与检测为物体框的邻近候选框也分类为目标物体;从而检测出的目标框覆盖更大的面积和更全的物体,提高弱监督目标检测的精度;

具体包括以下步骤:

步骤(1)训练数据集的准备阶段:

在目标检测中用PASCAL VOC 2007以及PASCAL VOC 2012数据集作为训练数据集,训练数据集中包括20种物体类别,PASCAL VOC2007一共有9963张图片,其中有训练数据集5011张图片,测试数据集有4952张图片;PASCAL VOC 2012数据集一共有22531张图片,其中训练数据集11540张图片,测试数据集有10991张图片;其中除了图片信息外还有每张图片含有的物体类别信息;

步骤(2)获取图片的特征图以及多实例检测网络模型:

首先,图片经过卷积层得到卷积特征图Ⅰ;

其次,选择性搜索边框图片经过金字塔池化层得到每个选择性搜索边框图片的卷积特征图Ⅱ,将卷积特征图Ⅱ连续经过两层全连接层得到选择性搜索边框图片的特征向量Ⅰ,特征向量Ⅰ分别经过全连接层Ⅰ和全连接层Ⅱ,全连接层Ⅰ与物体类别方向的softmax层Ⅰ连接,全连接层Ⅱ与选择性搜索边框图片方向的softmax层Ⅱ连接;将softmax层Ⅰ和softmax层Ⅱ输出的两个特征向量进行数量积相乘得到特征向量Ⅱ,根据特征向量Ⅱ得到每个选择性搜索边框图片在每个类别上的得分;

所述的图片包含多个选择性搜索边框图片;

步骤(3)图卷积神经网络,为了提高弱监督网络模型的检测精度,将步骤(2)获取的选择性搜索边框图片的特征向量Ⅱ输入图卷积神经网络,图卷积神经网络包括第一个隐藏层、第一个ReLU激活函数层、第二个隐藏层、第二个ReLU激活函数层;

将特征向量Ⅰ作为第一个隐藏层的输入,所述的特征向量Ⅰ是2000*4096大小的的特征矩阵;将第一个隐藏层输出设置为256维,因此第一个隐藏层将4096维转为256维,输出特征向量Ⅲ,降低了网络参数的个数,减少训练复杂度;然后输出的特征向量Ⅲ点乘邻接矩阵A,再然后连接第一个ReLU激活函数层;第一个ReLU激活函数层的输出作为第二个隐藏层的输入,第二个隐藏层的输出网络参数为21维,因此第二个隐藏层将256维转为21维,第二个隐藏层输出21维的特征向量Ⅳ,第二个隐藏层输出的特征向量Ⅳ再次点乘邻接矩阵A,然后再连接第二个ReLU激活函数层,得到特征向量Ⅴ;特征向量Ⅴ是2000*21大小的的特征矩阵;

图卷积神经网络的输出层连接一个softmax层,softmax层输出特征向量Ⅵ,即每个选择性搜索边框图片获得特征向量Ⅵ中,属于21个类别中每个类别的概率;最后连接损失函数;

步骤(4)设置弱监督目标检测模型的损失函数,多实例检测网络模型的损失函数为分类损失函数,具体的为交叉熵损失函数,如公式(1)所示;

其中,φc是多实例网络模型输出的所有选择性搜索边框图片的一个类别c上的权重之和;yc表示图片存在或者不存在物体类别c,当存在时等于1,不存在时等于0;C表示物体种类的总数量,PASCAL VOC有20类;加上背景这一类,C的取值为21,c表示物体的种类;

所述的权重之和是指在一个类别c上的所有选择性搜索边框图片的概率之和,且该权重之和的数值在(0,1)之间;

图片中,当c种类存在时,yc等于1;那么式(1)的加号右侧为0,所以此时φc越大损失函数越小,则存在的分类的置信分数就会越大;

图片中,当c种类不存在时,yc等于0,那么式(1)的加号左侧为0,所以此时φc越小损失函数越小,则不存在的类别的置信分数就会越小;

图卷积神经网络分支结构的损失函数是一个分类损失函数,首先每个选择性搜索边框图片的输出特征向量Ⅵ再经过softmax层,分类出每个选择性搜索边框图片的类别概率的置信分数 分类损失函数如下所示:其中, 表示第r个选择性搜索边框图片属于c类别的置信分数,属于(0,1)之间;yc表示图像存在或者不存在类别c,当存在时yc等于1,不存在时yc等于0;C表示物体种类数目,PASCAL VOC中有20个类;对图片中所有的选择性搜索边框图片对应的类进行聚类,经过聚类分为N束,sn表示第n个聚类束的置信分数,Mn表示第n个聚类束的物体框的个数;

步骤(5)用步骤(1)中的训练数据集迭代训练弱监督目标检测模型,得到模型结果;由上述步骤可以得到弱监督目标检测模型的训练结果,通过迭代训练,训练20个epoch,每个epoch迭代一万张图片,每个epoch存储一个训练的模型;

步骤(6)测试弱监督目标检测模型结果,通过两个重要的指标判断目标定位精度:平均正确率mAP和定位正确率CorLoc;测试结果表明平均正确率mAP和定位正确率CorLoc比现有PCL弱监督算法精确度提高5%mAP。

2.根据权利要求1所述的一种基于图卷积神经网络的弱监督目标检测方法,其特征在于所述的邻接矩阵A的获取如下:计算n行和m列的选择性搜索边框图片之间的IOU,当IOU大于0.1时邻接矩阵A的n行m列的值为1,当IOU小于0.1时,邻接矩阵A的n行m列的值为0。