从目标检测到图像分割简要发展史 目标检测 图像分割

   2023-02-10 学习力734
核心提示:http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识!by 小韩(来源: https://blog.athelas.com/a-brief-history-of-cnns-in-image-segmentation-from-r-cnn-to-mask-r-cnn-34ea83205de4 )本文目标2014: R-CNN CNNs 在目标检测中的早期应

http://www.tensorflownews.com/,学习更多的机器学习、深度学习的知识!

  • by 小韩

(来源: https://blog.athelas.com/a-brief-history-of-cnns-in-image-segmentation-from-r-cnn-to-mask-r-cnn-34ea83205de4

自从Alex Krizhevsky、Geoff Hinton 和 Ilya Sutskever 在2012年赢得 ImageNet 挑战赛以来,卷积神经网络(CNN)已经成为图像分类的黄金标准。 事实上从那时起,CNN已经改善到现在在ImageNet挑战中胜过人类的程度!

从目标检测到图像分割简要发展史

虽然这些结果令人印象深刻,但图像分类远比人类视觉理解的复杂性和多样性简单得多。 从目标检测到图像分割简要发展史

在分类中,通常有一个图像,其中有单个目标作为焦点,任务是说明该目标是什么。但是当我们观察周围的世界时我们会执行更复杂的任务。

从目标检测到图像分割简要发展史

我们看到的景象有许多重叠的目标和不同的背景,我们不仅要对这些不同的目标分类,还要确定它们之间的界限,差异和关系。

从目标检测到图像分割简要发展史

CNN 可以帮助我们完成这么复杂的任务吗? 也就是说,给定一个更复杂的图像,我们可以使用 CNN 来识别图像中的不同目标及其边界吗? 正如 Ross Girshick 和他的同事在过去几年所表明的那样,答案是肯定的。

本文目标

通过这篇文章,我们将介绍在目标检测和分割中使用的一些主要技术背后的原理,并了解它们是如何从一个实现发展到下一个的。 特别的,我们将介绍 R-CNN(Regional CNN),CNNs 的原始应用,以及它的后代 Fast R-CNN 和 Faster R-CNN。 最后,我们将介绍Facebook Research 发布的一篇文章 Mask R-CNN,该文章对这种目标检测技术进行了扩展以提供像素级的分割。 下面是本文中引用的论文:

  1. R-CNN: https://arxiv.org/abs/1311.2524
  2. Fast R-CNN: https://arxiv.org/abs/1504.08083
  3. Faster R-CNN: https://arxiv.org/abs/1506.01497
  4. Mask R-CNN: https://arxiv.org/abs/1703.06870
2014: R-CNN CNNs 在目标检测中的早期应用 从目标检测到图像分割简要发展史

受多伦多大学 Hinton 实验室研究的启发,由加州大学伯克利分校的 Jitendra Malik 教授领导的小团队开始探索一个在今天看来是一个不可避免的问题:

[Krizhevsky 等人的结果]可以在多大程度上推广到目标检测?

目标检测的任务是在图像中查找不同的目标并对其进行分类(如上图所示), 由 Ross Girshick ,Jeff Donahue 和 Trevor Darrel 组成的团队发现,Krizhevsky 的结果可以解决这个问题, 并通过 PASCAL VOC Challenge 的测试,这是一种类似于 ImageNet 的目标检测挑战。 他们写道:

本文首次表明,与基于简单 HOG 类功能的系统相比,CNN 可以在 PASCAL VOC 上实现更高的目标检测性能。

现在来了解他们的架构,Regions With CNNs(R-CNN)是怎样工作的。

理解 R-CNN

R-CNN 的目标是获取图像,并正确识别图像中主要目标(用边框(bounding box)表示)的位置。

  • 输入: 图像
  • 输出: 图像中每个目标的边界框(bounding box)和标签(label)。
但是我们如何找出这些边界框的位置? R-CNN 按照我们的直觉来做做 -- 首先在图像中标出许多边界框,然后判断每个边界框中是否实际对应一个目标。 从目标检测到图像分割简要发展史

R-CNN 使用称为选择性搜索(Selective Search)的方法创建这些边界框或候选区域。 在较高的层次上,选择性搜索(如上图所示)通过不同大小的窗口查看图像,并且对于每个尺寸,尝试通过纹理,颜色或强度将相邻像素组合在一起以识别目标。

从目标检测到图像分割简要发展史

一旦创建了一些候选区域,R-CNN 就会该区域变为标准的方形大小,并将其传递给修改过的 AlexNet(2012 年 ImageNet 的获奖提交),如上图所示。

在 CNN 的最后一层,R-CNN 增加了一个支持向量机(SVM),它简单地判断这是否是一个目标,如果是的话,是什么目标。 见上图中的第 4 步。

改进边框

现在,在边框内找到了这个目标,我们可以缩小边界框到目标的实际大小吗? 答案是可以,这就是 R-CNN 的最后一步。R-CNN 对候选区域进行简单的线性回归,生成更紧密的边界框坐标获得最终结果。 以下是这个回归模型的输入和输出:

  • 输入: 图像相应目标的子区域
  • 输出: 子区域中新的目标边界框
总结一下,R-CNN 有以下几个步骤:
  1. 生成一系列的候选边框。
  2. 将边框中的图像输入预先训练的 AlexNet,最后通过 SVM 确认边界框中是什么目标。
  3. 如果图像中有目标,就将边框中图像输入线性回归模型,输出更紧密的边界框坐标。
2015: Fast R-CNN - 更快更简单的 R-CNN 从目标检测到图像分割简要发展史

R-CNN 运行的挺好,但是比较慢,有下面的原因:

  1. 每张图像的每个候选区域都要输入到 CNN(AlexNet)中(每个图像大约有2000个!)。
  2. 需要单独训练三个不同的模型: 生成图像特征的 CNN ,预测目标类别的分类器,生成更紧密边界框的回归模型。这使得模型非常难以训练。
在2015年,R-CNN 的第一作者 Ross Girshick 解决了这两个问题,提出了只有短暂历史的第二个算法 - Fast R-CNN。 回顾一下它的主要思想。

Fast R-CNN 第一个思想:RoI (Region of Interest) Pooling

Girshick 意识到 CNN 中每一张图片有许多重复的候选区域,因此有很多重复的 CNN 计算(约2000次)。他的想法很简单——为什么不让每张图片只做一次 CNN 计算然后找一个方法使这约 2000 个候选区域共享计算结果?

从目标检测到图像分割简要发展史

这正是 Fast R-CNN 使用的称为 RoIPool(Region of Interest Pooling)所做的事情。 RoIPool 的核心就是让候选区域分享 CNN 的结果。 在上图中,每个区域的 CNN 特征都是通过从 CNN 特征图选择相应的区域来获得的。 然后每个区域再经过池化(通常是最大池化)。 所以我们只需要计算一次原始图像而不是之前的2000次!

Fast R-CNN 第二个思想:结合所有的模型到一个网络中

 

从目标检测到图像分割简要发展史

Fast R-CNN 第二个思想就是将 CNN,分类器和边界框回归器放在一个模型中。相比之前的三个不同的模型,图像特征(CNN)、分类器(SVM)、边界框(回归),Fast R-CNN 只使用了一个网络计算。

可以在上图中看到是怎样完成的。 Fast R-CNN 用 SVM 分类器替换原本 CNN 顶部的 softmax 层。 它还添加了一个与 softmax 层平行的线性回归层用来输出边界框坐标。 这样,所需的所有输出都来自于一个网络! 下面是这个整体模型的输入和输出:

  • 输入: 有候选区域的图像
  • 输出: 每个区域的目标分类和更紧密的边界框。
2016: Faster R-CNN - 加速候选区域

即使有了这些进步,Fast R-CNN 的过程仍然存在一个瓶颈 — 候选区域。 正如之前看到的,检测目标位置的第一步是生成许多潜在的边界框或感兴趣区域进行测试。 在 Fast R-CNN 中,这些区域是使用选择性搜索(Selective Search)创建的,这是一个相当缓慢的过程,是整个过程的瓶颈。

从目标检测到图像分割简要发展史

在2015年中期,由 Shaoqing Ren,Kaiming He,Ross Girshick 和 Jian Sun 组成的微软研究团队找到了一种方法,他们称为 Faster R-CNN 的架构,使生成候选区域几乎不花费额外时间。

Faster R-CNN 的思想是,候选区域取决于已经通过 CNN 计算的图像的特征(分类的第一步)。 生成候选区域时为什么不重用 CNN 计算结果而要单独运行选择性搜索算法呢?

从目标检测到图像分割简要发展史

实际上,这正是 Faster R-CNN 团队所取得的成就。 在上图中,可以看到单次 CNN 计算是怎样得到候选区域和分类。 这样,只需计算一次 CNN 就可以获得候选区域! 作者写道:

我们的观察结果是,基于区域的探测器(如Fast R-CNN)使用的卷积特征图也可用于生成候选区域(几乎无成本)。

模型的输入和输出:

  • 输入: 图像(不需要候选区域)。
  • 输出: 图像中目标的分类和边界框坐标。
候选区域是怎样生成的

让我们看看 Faster R-CNN 是怎样生成候选区域的。 Faster R-CNN 在 CNN 的特征上面增加了一个全卷积网络,也就是候选区域网络(Region Proposal Network)。

从目标检测到图像分割简要发展史

候选区域网络在 CNN 特征图上滑动一个窗口,每个窗口输出 k 个可能的边界框并预测每个边界框的好坏程度,打一个分数。 这 k 个边界框代表什么?

从目标检测到图像分割简要发展史

直观上,图像中的目标应该适合某些常见的长宽比和大小。 例如,如果想要一些类似于人类形状的矩形盒子就不会看到很多非常薄的框。 用这种方式创建 k 个这样常见的长宽比的框,称之为 anchor boxes。 对于每个 anchor boxes,输出一个边界框并对图像中的每个位置打分。

候选区域网络的输入和输出:

  • 输入: CNN 特征图。
  • 输出: 每个 anchor 一个边界框。 一个该边界框中有目标的可能性的分数。
然后将每个可能有目标的边界框传递到 Fast R-CNN,生成分类和更小的边界框。

2017: Mask R-CNN - Faster R-CNN 扩展到像素级分割

从目标检测到图像分割简要发展史

到目前为止,我们看到了以多种方式使用 CNN 来有效地定位图像中带有边界框的的不同目标。

我们能否进一步扩展这样的技术来定位每一个目标的像素而不仅仅只是一个边界框?这个问题就是图像分割,是 Kaiming He 和包括 Girshick,Facebook AI 的研究团队使用的 Mask R-CNN 结构。

从目标检测到图像分割简要发展史

像 Fast R-CNN 和 Faster R-CNN 一样,Mask R-CNN 直观上很直接。鉴于 Faster R-CNN 在目标检测方面的效果非常好,我们是否可以将它扩展到像素级分割?

从目标检测到图像分割简要发展史

Mask R-CNN 通过向 Faster R-CNN 添加分支来完成此操作,该分支输出二进制掩码(binary mask),该掩码表示这个像素是否是该目标的一部分。 如前所述,分支(上图中的白色)只是基于 CNN 的特征映射之上的全卷积网络。 以下是其输入和输出:

  • 输入: CNN 特征图
  • 输出: 像素在属于目标的所有位置上是 1 并且在其他位置是 0(称为二进制掩码)的矩阵。
RoiAlign - 调整 RoIPool 使更精确 从目标检测到图像分割简要发展史

当运行在原始的没有修改的 Faster R-CNN 上时,Mask R-CNN 的作者意识到由 RoIPool 选择的特征图的区域与原始图像的区域对应略微不准确。 与边界框不同,图像分割需要像素级的特性,这自然会导致不准确。

作者巧妙地通过调整 RoIPool 来解决这个问题,使用称为 RoIAlign 的方法使对齐更精确。

从目标检测到图像分割简要发展史

想象一下,我们有一个大小为 128 * 128 的图像和一个大小为 25 * 25 的特征图。 我们想要的特征区域对应于原始图像中左上角的 15 * 15 的像素(见上图)。 我们怎样从要素图中选择这些像素?

原始图像中的每个像素对应于特征图中的 ~25/128 像素。 要从原始图像中选择15个像素,我们只从特征图中选择 15 * 25 / 128 ~= 2.93 个像素。

在 RoIPool 中,我们向下舍入只选择2个像素,导致轻微的错位。 但是,在 RoIAlign 中,我们不使用舍入。 相反,我们用双线性插值法来准确还原 2.93 个像素对应原图像的内容。 这在很大程度上避免了 RoIPool 引起的错位。

一旦生成了这些掩码,Mask R-CNN 将掩码和 Faster R-CNN 生成的分类和边界框组合在一起,生成更加精确的分割:

从目标检测到图像分割简要发展史

代码

如果您有兴趣了解这些算法,这里有相关的代码:

Faster R-CNN

Mask R-CNN 展望

在短短3年时间里,我们已经看到研究界如何从Krizhevsky 等人的原始成果到 R-CNN,最后一直到 Mask R-CNN 这样强大的成果。 孤立地看,像 Mask R-CNN 这样的成果看起来像天才般难以置信的飞跃是无法达到的。 然而,通过这篇文章,我希望你看到这些进步是通过多年的努力和协作缓慢实现的。 R-CNN,Fast R-CNN,Faster R-CNN 以及最终的 Mask R-CNN 提出的每个想法都不一定是质的跳跃,但它们的结合已经产生了非常显著的结果,更接近人类视力的水平。

让我特别兴奋的是,R-CNN 和 Mask R-CNN 之间的时间只有三年! 通过不断增加的关注和支持,未来三年计算机视觉是否能够进一步提升?

本篇文章出自http://www.tensorflownews.com,对深度学习感兴趣,热爱Tensorflow的小伙伴,欢迎关注我们的网站!

 

 
反对 0举报 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • 目标检测(R-CNN)和实例分割 mask R-CNN
    目标检测(R-CNN)和实例分割 mask R-CNN
    目标检测•   RCNN        RCNN(Regions with CNN features)是将CNN方法应用到目标检测问题上的一个里程碑,由年轻有为的RBG大神提出,借助CNN良好的特征提取和分类性能,通过RegionProposal方法实现目标检测问题的转化。        算法可以分为
    03-08
  • 目标检测综述 目标检测综述2022
    目标检测综述 目标检测综述2022
    目标检测的综述~总体介绍  目标检测是计算机视觉里面十分重要的任务,其主要解决检测在数字图像中某一类别可见的实例。最终的目的是为了开发一种计算模型和技术,来提供计算机视觉应用所需要的一个基础的信息即:目标在哪?  作为计算机视觉中众多基础问
    03-08
  • EfficientDet框架详解 | 目前最高最快最小模型,可扩缩且高效的目标检测(附源码下载)
    EfficientDet框架详解 | 目前最高最快最小模型
    EfficientDet框架详解 | 目前最高最快最小模型,可扩缩且高效的目标检测(附源码下载)昨天收录于话题3 12 51 4 29欢迎关注“计算机视觉研究院”计算机视觉研究院专栏作者:Edison_G疫情以来,已经被研究出很多高效高精度的框架,在深度学习领域,模型效
    03-08
  • YOLOV3目标检测模型训练实例 yolo5目标检测
    YOLOV3目标检测模型训练实例 yolo5目标检测
    从零开始学习使用keras-yolov3进行图片的目标检测,比较详细地记录了准备以及训练过程,提供一个信号灯的目标检测模型训练实例,并提供相关代码与训练集。DEMO测试YOLO提供了模型以及源码,首先使用YOLO训练好的权重文件进行快速测试,首先下载权重文件https:
    03-08
  • 10行Python代码实现目标检测
    10行Python代码实现目标检测
    要知道图像中的目标是什么?或者你想数一幅图里有多少个苹果?在本文中,我将向你展示如何使用Python在不到10行代码中创建自己的目标检测程序。如果尚未安装python库,你需要安装以下python库:opencv-pythoncvlibmatplotlibtensorflow下面的代码导入所需的pytho
    03-08
  • 目标检测中的AP计算 目标检测precision计算
    目标检测中的AP计算 目标检测precision计算
    转载自:https://blog.csdn.net/lppfwl/article/details/108018950目标检测中的AP计算最近在学习目标检测,对模型评价指标AP的计算过程有点疑问,经过查找资料、问师兄,最终算是有了一个相对明确的了解,特此记录一下,方便以后查看,不足之处还请大家批评指
    03-08
  • 目标检测数据集分析 目标检测数据预处理
    目标检测数据集分析 目标检测数据预处理
    目录目标检测数据集分析图片数量、标注框数量、类别信息所有图片宽度和高度的散点图所有标注框宽度和高度的散点图标注框宽度和高度之比每一类的标注框数量每一类图片数量每一张图片上的标注框数量不同尺寸的图片数量每一类标注框的宽度高度散点图使用方法Inst
    03-08
  • 目标检测框回归问题
    本文转自知乎,作者mileistone,已获作者授权转载,请勿二次转载。https://zhuanlan.zhihu.com/p/330613654目标检测模型训练的时候有两个任务,框分类(框里是什么)和框回归(框在哪),本文主要讲第二点。框回归可以分为两大类,基于x,y,w,h的回归(比如
    03-08
  • 目标检测算法-Mask-RCNN 目标检测算法的主要目的是找到图像中用户感兴趣的
    目标检测算法-Mask-RCNN 目标检测算法的主要目
    Mask_RCNN是何凯明基于以往的faster-rcnn构架提出的新的卷积网络,该方法再有效的目标的同时完成了高质量的语义分割。主要思路就是把原有的faster-rcnn进行扩展,添加一个分支使用现有的检测对目标进行并行预测,可以很方便的应用其他的应用领域,向目标检测
    03-08
  • 手机端 19FPS 的实时目标检测算法:YOLObile
    手机端 19FPS 的实时目标检测算法:YOLObile
    本文转载自机器之心。本文提出了一套模型压缩和编译结合的目标检测加速框架,根据编译器的硬件特性而设计的剪枝策略能够在维持高 mAP 的同时大大提高运行速度,压缩了 14 倍的 YOLOv4 能够在手机上达到 19FPS 的运行速度并且依旧维持 49mAP(COCO dataset)的
    03-08
点击排行