复旦大学Ph.D沈志强:用于目标检测的DSOD模型

   2023-02-10 学习力608
核心提示:复旦大学Ph.D沈志强:用于目标检测的DSOD模型 玄学酱 2017-10-24 09:59:00 浏览1318深度学习 性能 HTTPS github 目标检测作为一个基础的计算机视觉任务,在自动驾驶、视频监控等领域拥有非常广泛的应用前景。目前主流的目标检测方法都严重依赖于在大规

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

 
玄学酱 2017-10-24 09:59:00 浏览1318
 

目标检测作为一个基础的计算机视觉任务,在自动驾驶、视频监控等领域拥有非常广泛的应用前景。目前主流的目标检测方法都严重依赖于在大规模数据集(如ImageNet)上预训练初始模型。而在DSOD: Learning Deeply Supervised Object Detectors from Scratch这篇论文中,作者通过分析深度检测模型从头训练存在的问题,提出了四个原则,他们根据这些原则构建了DSOD模型,该模型在三个标准数据集(PASCAL VOC 07, 12和COCO)上都达到了顶尖的性能。这篇论文已被ICCV2017收录。

在近期雷锋网 AI研习社的线上分享会上,该论文的第一作者——复旦大学Ph.D沈志强为我们带来了对DSOD的详细解读,与此同时也介绍了他在CVPR 2017和ICCV 2017上的一些其它研究工作。

沈志强,复旦大学Ph.D,UIUC ECE系访问学者,导师Thomas S. Huang教授。研究兴趣包括:计算机视觉(目标检测、视频描述、细粒度分类等),深度学习,机器学习等。他曾在因特尔中国研究院(Intel Labs China)进行为期一年的实习研究,期间合作者包括研究院Jianguo Li博士和在读博士生Zhuang Liu等。

分享内容:

很高兴与大家分享我们的最新的工作DSOD,这篇论文已经被ICCV 2017 所收录。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

众所周知,计算机视觉有几个比较重要的分类,包括目标分类、定位、目标检测、实例分割,前两个分类是针对单个目标,后两个分类是针对多个目标,DSOD主要是针对目标检测。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

说到目标检测,大家可能会想到如下几个比较有代表性的方法:R-CNN、Faster-RCNN、YOLO、SSD。下图是关于他们的一些介绍。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

ImageNet预训练模型的限制:一是模型结构是固定的,你不可能改变它的结构,二是会有learning bias,三是会出现domain不匹配的情况。我们的思路是从头训练检测器,但是我们用R-CNN和Faster-RCNN都没能得到较好的表现。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

简单回顾下Rol pooling,如下图所示:

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

它其实就是一个max pooling:

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

可以在下图中看到forward和backward情况,把Rol pooling去掉这个框架就类似于YOLO和SSD。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

几个原则:一是Proposal-free。去掉Rol pooling,虽然对模型的表现影响不大,但这一点非常重要。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

二是Deep Supervision。采用Dense Block,能避免梯度消失的情况。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

 

三是Dense Prediction Structure。大大减少了模型的参数量,特征包含更多信息。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

四是Stem Block。采用stem结构,好处是能减少输入图片信息的丢失。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

下面是DSOD整体结构:

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

这是我们做的一些对比实验,可以看到增加这些结构之后性能提升的百分点:

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

下面是在PASCAL VOC2007上的实验结果,可以看到Faster-RCNN和R-CNN速度很慢,YOLO和SSD的速度非常快,但是mAP不高。最下面是我们没有用预训练模型做的一些对比实验,可以看到Faster-RCNN和R-CNN均以失败告终,最后的一行的实验加入COCO后mAP值提升,说明DSOD模型本身的泛化能力非常强。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

下面是在PASCAL VOC2012上的实验结果,可以看到DSOD有不错的mAP值。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

接下来是在COCO上面的一些结果,对比起来DSOD的也有很好的性能。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

最后是一些实际的检测结果,可以看到bounding box对目标的检测非常贴合。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

论文地址: https://arxiv.org/abs/1708.01241

代码:https://github.com/szq0214/DSOD

模型可视化示例:http://ethereon.github.io/netscope/#/gist/b17d01f3131e2a60f9057b5d3eb9e04d

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

最后简单介绍下我们在CVPR 2017的相关工作Dense Video captioning,主要是做视频描述。在视频当中包含很多内容,而这些内容并不一致,因此视频描述相对来说会比较困难。下图是一些示例。

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

网络结构如下图所示。具体细节大家可以参见我们的论文Weakly Supervised Dense Video Captioning,论文地址:https://arxiv.org/abs/1704.01502

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

接下来是我们在ICCV 2017上的工作,主要是做网络压缩。我们用了一个衡量channel是否重要的值来训练模型,然后剔除掉不太重要的特征层。论文代码我们也放在github上了。具体细节大家可以参见论文Learning Efficient Convolutional Networks through Network Slimming,论文地址:https://arxiv.org/abs/1708.06519

复旦大学Ph.D沈志强:用于目标检测的DSOD模型

 

https://yq.aliyun.com/articles/228792?spm=a2c4e.11153940.0.0.78b01e1be6BKPN

 
 
反对 0举报 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • 目标检测(R-CNN)和实例分割 mask R-CNN
    目标检测(R-CNN)和实例分割 mask R-CNN
    目标检测•   RCNN        RCNN(Regions with CNN features)是将CNN方法应用到目标检测问题上的一个里程碑,由年轻有为的RBG大神提出,借助CNN良好的特征提取和分类性能,通过RegionProposal方法实现目标检测问题的转化。        算法可以分为
    03-08
  • 目标检测综述 目标检测综述2022
    目标检测综述 目标检测综述2022
    目标检测的综述~总体介绍  目标检测是计算机视觉里面十分重要的任务,其主要解决检测在数字图像中某一类别可见的实例。最终的目的是为了开发一种计算模型和技术,来提供计算机视觉应用所需要的一个基础的信息即:目标在哪?  作为计算机视觉中众多基础问
    03-08
  • EfficientDet框架详解 | 目前最高最快最小模型,可扩缩且高效的目标检测(附源码下载)
    EfficientDet框架详解 | 目前最高最快最小模型
    EfficientDet框架详解 | 目前最高最快最小模型,可扩缩且高效的目标检测(附源码下载)昨天收录于话题3 12 51 4 29欢迎关注“计算机视觉研究院”计算机视觉研究院专栏作者:Edison_G疫情以来,已经被研究出很多高效高精度的框架,在深度学习领域,模型效
    03-08
  • YOLOV3目标检测模型训练实例 yolo5目标检测
    YOLOV3目标检测模型训练实例 yolo5目标检测
    从零开始学习使用keras-yolov3进行图片的目标检测,比较详细地记录了准备以及训练过程,提供一个信号灯的目标检测模型训练实例,并提供相关代码与训练集。DEMO测试YOLO提供了模型以及源码,首先使用YOLO训练好的权重文件进行快速测试,首先下载权重文件https:
    03-08
  • 10行Python代码实现目标检测
    10行Python代码实现目标检测
    要知道图像中的目标是什么?或者你想数一幅图里有多少个苹果?在本文中,我将向你展示如何使用Python在不到10行代码中创建自己的目标检测程序。如果尚未安装python库,你需要安装以下python库:opencv-pythoncvlibmatplotlibtensorflow下面的代码导入所需的pytho
    03-08
  • 目标检测中的AP计算 目标检测precision计算
    目标检测中的AP计算 目标检测precision计算
    转载自:https://blog.csdn.net/lppfwl/article/details/108018950目标检测中的AP计算最近在学习目标检测,对模型评价指标AP的计算过程有点疑问,经过查找资料、问师兄,最终算是有了一个相对明确的了解,特此记录一下,方便以后查看,不足之处还请大家批评指
    03-08
  • 目标检测数据集分析 目标检测数据预处理
    目标检测数据集分析 目标检测数据预处理
    目录目标检测数据集分析图片数量、标注框数量、类别信息所有图片宽度和高度的散点图所有标注框宽度和高度的散点图标注框宽度和高度之比每一类的标注框数量每一类图片数量每一张图片上的标注框数量不同尺寸的图片数量每一类标注框的宽度高度散点图使用方法Inst
    03-08
  • 目标检测框回归问题
    本文转自知乎,作者mileistone,已获作者授权转载,请勿二次转载。https://zhuanlan.zhihu.com/p/330613654目标检测模型训练的时候有两个任务,框分类(框里是什么)和框回归(框在哪),本文主要讲第二点。框回归可以分为两大类,基于x,y,w,h的回归(比如
    03-08
  • 目标检测算法-Mask-RCNN 目标检测算法的主要目的是找到图像中用户感兴趣的
    目标检测算法-Mask-RCNN 目标检测算法的主要目
    Mask_RCNN是何凯明基于以往的faster-rcnn构架提出的新的卷积网络,该方法再有效的目标的同时完成了高质量的语义分割。主要思路就是把原有的faster-rcnn进行扩展,添加一个分支使用现有的检测对目标进行并行预测,可以很方便的应用其他的应用领域,向目标检测
    03-08
  • 手机端 19FPS 的实时目标检测算法:YOLObile
    手机端 19FPS 的实时目标检测算法:YOLObile
    本文转载自机器之心。本文提出了一套模型压缩和编译结合的目标检测加速框架,根据编译器的硬件特性而设计的剪枝策略能够在维持高 mAP 的同时大大提高运行速度,压缩了 14 倍的 YOLOv4 能够在手机上达到 19FPS 的运行速度并且依旧维持 49mAP(COCO dataset)的
    03-08
点击排行