【目标检测】Stitcher: Feedback-driven Data Provider for Object Detection

   2023-02-10 学习力428
核心提示:论文:《Stitcher: Feedback-driven Data Provider for Object Detection》论文地址:https://arxiv.org/pdf/2004.12432.pdf原文链接:https://blog.csdn.net/weixin_42096202/article/details/1058505731、摘要目标检测器通常会根据尺寸具有不同质量,其中小

论文《Stitcher: Feedback-driven Data Provider for Object Detection》

论文地址:https://arxiv.org/pdf/2004.12432.pdf

原文链接https://blog.csdn.net/weixin_42096202/article/details/105850573

1、摘要

目标检测器通常会根据尺寸具有不同质量,其中小物体的性能最不令人满意。在本文中,我们研究了这种现象,并发现:在大多数训练迭代中,小目标的损失对总损失几乎没有贡献,导致优化不平衡导致性能下降。受此启发,我们提出Stitcher,它是一种反馈驱动的数据提供者,旨在以平衡的方式训练目标检测器。在Stitcher中,将图像调整为较小的分量,然后将其拼接为与常规图像相同的尺寸。拼接图像不可避免的包含较小目标,这对于我们的核心思想将是有益的,以利用损失统计信息作为反馈来指导下一次迭代更新。已经对各种检测器,主干网络,训练周期,数据集甚至实例分割进行了实验。在所有设置中,尤其是对于小型目标,Stitcher稳定地大幅提高了性能,而在训练和测试阶段几乎没有引入任何额外的计算。

2、小目标难以检测问题分析

2.1、数据集图像分布分析(Image Level Operations)

【目标检测】Stitcher: Feedback-driven Data Provider for Object Detection

目标检测COCO数据集中,小目标占据了41.4%的比例,远多于中大型目标,这个应该是有利于小目标检测的。然而,数据集中只有52.3%的图片包含小目标。意味着接近一半的图像是不包含小目标的。这种严重的失衡阻碍了模型的训练过程。
 

【目标检测】Stitcher: Feedback-driven Data Provider for Object Detection

如果将常规图像调整为较小的尺寸,则内部的中型或大型目标也将变为较小的目标,但是其轮廓或细节仍然比原始的小型目标更清晰。从图4中可以看出,原图中的小目标和经过resize后的目标尺寸分别为29 x 31和30 x 30,大小基本一致,但是后者图像更清晰。

2.2、训练过程分析(Training Level Module)

【目标检测】Stitcher: Feedback-driven Data Provider for Object Detection

小物体在图像上的分布不均匀,因此使训练遭受进一步的失衡问题。 即使某些图像中包含小物体,它们仍然有机会在训练过程中被忽略。 图1说明,在超过50%的迭代中,小目标损失占总数的不到10%。 训练损失主要是大中型物体。 因此,用于小物体的监督信号不足,严重损害了小物体的准确性甚至整体性能。

3、Stitcher介绍

本文提出了一种Stitcher,一种反馈驱动的数据提供者,它通过以反馈的方式利用训练损失来增强对象检测的性能。在Stitcher中,我们引入的拼接图像大小与常规图像相同。 核心思想是利用当前迭代中的损耗统计信息作为反馈,以自适应地确定下一次的输入选择。

具体如下图所示,如果在当前迭代t中小对象rts的损失比可忽略不计,则迭代t +1的输入是拼接图像,其中拼接图像中较小的对象不可避免地会更加丰富。 否则,输入将在默认设置下保留常规图像。

【目标检测】Stitcher: Feedback-driven Data Provider for Object Detection

3.1、Image Level Operations - Component Stitching

【目标检测】Stitcher: Feedback-driven Data Provider for Object Detection

为了解决数据集中小物体监督信号不足的问题,使用Stitching动态地生成拼接图像或常规图像来丰富小目标。具体操作为,给定输入图像resize到统一的尺寸,然后利用参数k个图像进行拼接,并保留了原有图像的宽高比。保持宽高比的原因是可以保留原始对象的属性。 当将k设为1时,将自然图像引入到拼接图像中。将k的缝合顺序指定为4,我们可以看到图5(b)中的示例。 在图像拼接的帮助下,通过制造更多的小物体,图像批处理(充当最小训练实体)的比例失衡得到缓解。 由于拼接图像的大小与常规图像相同,因此不会在网络传播中引入其他计算。
3.2、Training Level Module - Selection Paradigm

图1中已经分析出在网络的训练过程中,超过50%的迭代小目标损失占比低于0.1。为了避免这种不希望的趋势,论文提出了一种正确的范例,根据当前遍历的反馈确定下一次迭代的输入。 如果小目标象的损失在迭代t中可以忽略不计(低于阈值y),则我们认为关于小对象的知识还远远不够。 为了弥补信息的不足,我们采用拼接图像作为迭代t + 1的输入。否则,将选择常规图像。

如何计算小目标损失占比呢?论文采用以下公式:

【目标检测】Stitcher: Feedback-driven Data Provider for Object Detection

即box的面积定义为h x w,当面积 < 1024时(32 x 32),则该Box的回归损失定义小目标损失(后续的消融实验分析了损失部分的选取),就可算出其比例。

【目标检测】Stitcher: Feedback-driven Data Provider for Object Detection

论文将图6中的损失分布比较和图7中的性能差异可视化。每10k次迭代测量一次统计数据,并平滑地进行说明。 它表明,使用Stitcher,各种规模的损失分布更加平衡,从而提高了精度。

4、实验结果

4.1、Faster-RCNN与RetinaNet比较

【目标检测】Stitcher: Feedback-driven Data Provider for Object Detection

4.2、s multi-scale training

【目标检测】Stitcher: Feedback-driven Data Provider for Object Detection

4.3、vs SNIP and SNIPER

【目标检测】Stitcher: Feedback-driven Data Provider for Object Detection

4.4、Ablation study

【目标检测】Stitcher: Feedback-driven Data Provider for Object Detection

 
反对 0举报 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • 目标检测(R-CNN)和实例分割 mask R-CNN
    目标检测(R-CNN)和实例分割 mask R-CNN
    目标检测•   RCNN        RCNN(Regions with CNN features)是将CNN方法应用到目标检测问题上的一个里程碑,由年轻有为的RBG大神提出,借助CNN良好的特征提取和分类性能,通过RegionProposal方法实现目标检测问题的转化。        算法可以分为
    03-08
  • 目标检测综述 目标检测综述2022
    目标检测综述 目标检测综述2022
    目标检测的综述~总体介绍  目标检测是计算机视觉里面十分重要的任务,其主要解决检测在数字图像中某一类别可见的实例。最终的目的是为了开发一种计算模型和技术,来提供计算机视觉应用所需要的一个基础的信息即:目标在哪?  作为计算机视觉中众多基础问
    03-08
  • EfficientDet框架详解 | 目前最高最快最小模型,可扩缩且高效的目标检测(附源码下载)
    EfficientDet框架详解 | 目前最高最快最小模型
    EfficientDet框架详解 | 目前最高最快最小模型,可扩缩且高效的目标检测(附源码下载)昨天收录于话题3 12 51 4 29欢迎关注“计算机视觉研究院”计算机视觉研究院专栏作者:Edison_G疫情以来,已经被研究出很多高效高精度的框架,在深度学习领域,模型效
    03-08
  • YOLOV3目标检测模型训练实例 yolo5目标检测
    YOLOV3目标检测模型训练实例 yolo5目标检测
    从零开始学习使用keras-yolov3进行图片的目标检测,比较详细地记录了准备以及训练过程,提供一个信号灯的目标检测模型训练实例,并提供相关代码与训练集。DEMO测试YOLO提供了模型以及源码,首先使用YOLO训练好的权重文件进行快速测试,首先下载权重文件https:
    03-08
  • 10行Python代码实现目标检测
    10行Python代码实现目标检测
    要知道图像中的目标是什么?或者你想数一幅图里有多少个苹果?在本文中,我将向你展示如何使用Python在不到10行代码中创建自己的目标检测程序。如果尚未安装python库,你需要安装以下python库:opencv-pythoncvlibmatplotlibtensorflow下面的代码导入所需的pytho
    03-08
  • 目标检测中的AP计算 目标检测precision计算
    目标检测中的AP计算 目标检测precision计算
    转载自:https://blog.csdn.net/lppfwl/article/details/108018950目标检测中的AP计算最近在学习目标检测,对模型评价指标AP的计算过程有点疑问,经过查找资料、问师兄,最终算是有了一个相对明确的了解,特此记录一下,方便以后查看,不足之处还请大家批评指
    03-08
  • 目标检测数据集分析 目标检测数据预处理
    目标检测数据集分析 目标检测数据预处理
    目录目标检测数据集分析图片数量、标注框数量、类别信息所有图片宽度和高度的散点图所有标注框宽度和高度的散点图标注框宽度和高度之比每一类的标注框数量每一类图片数量每一张图片上的标注框数量不同尺寸的图片数量每一类标注框的宽度高度散点图使用方法Inst
    03-08
  • 目标检测框回归问题
    本文转自知乎,作者mileistone,已获作者授权转载,请勿二次转载。https://zhuanlan.zhihu.com/p/330613654目标检测模型训练的时候有两个任务,框分类(框里是什么)和框回归(框在哪),本文主要讲第二点。框回归可以分为两大类,基于x,y,w,h的回归(比如
    03-08
  • 目标检测算法-Mask-RCNN 目标检测算法的主要目的是找到图像中用户感兴趣的
    目标检测算法-Mask-RCNN 目标检测算法的主要目
    Mask_RCNN是何凯明基于以往的faster-rcnn构架提出的新的卷积网络,该方法再有效的目标的同时完成了高质量的语义分割。主要思路就是把原有的faster-rcnn进行扩展,添加一个分支使用现有的检测对目标进行并行预测,可以很方便的应用其他的应用领域,向目标检测
    03-08
  • 手机端 19FPS 的实时目标检测算法:YOLObile
    手机端 19FPS 的实时目标检测算法:YOLObile
    本文转载自机器之心。本文提出了一套模型压缩和编译结合的目标检测加速框架,根据编译器的硬件特性而设计的剪枝策略能够在维持高 mAP 的同时大大提高运行速度,压缩了 14 倍的 YOLOv4 能够在手机上达到 19FPS 的运行速度并且依旧维持 49mAP(COCO dataset)的
    03-08
点击排行