目标检测算法-Mask-RCNN 目标检测算法的主要目的是找到图像中用户感兴趣的_人工智能

目标检测算法-Mask-RCNN 目标检测算法的主要目的是找到图像中用户感兴趣的

2023-03-08 学习力1039

核心提示：Mask_RCNN是何凯明基于以往的faster-rcnn构架提出的新的卷积网络，该方法再有效的目标的同时完成了高质量的语义分割。主要思路就是把原有的faster-rcnn进行扩展，添加一个分支使用现有的检测对目标进行并行预测，可以很方便的应用其他的应用领域，向目标检测

Mask_RCNN是何凯明基于以往的faster-rcnn构架提出的新的卷积网络，该方法再有效的目标的同时完成了高质量的语义分割。主要思路就是把原有的faster-rcnn进行扩展，添加一个分支使用现有的检测对目标进行并行预测，可以很方便的应用其他的应用领域，向目标检测，分割和人物关键点检测等。其网络结构如下。

目标检测算法-Mask-RCNN

Mask-RCNN是在faster-RCNN的基础上添加了一个预测分割mask分支，将ROIPooling替换成了ROIAlign层添加了并列的FCN层（mask层）。

为什么替换ROIPooling层？

因为ROIPooling操作中两次量化回造成区域不匹配。比如，在在faster-rcnn框架中，输入一张800×800的图片，图片上有一个665×665的包围框，图片经过主干网络提取特征后，特征图缩放步长为32，因此，图像和包围框的边长都是输入时的1/32，800正好被32整除，但是665除以32以后为20.78，于是ROIPooling直接将它量化成20，接下来需要把框内的特征池化为7×7的大小，因此将上述包围框平均分成7×7个矩形，显然每个矩形的边长为2.86，于是ROIPooling再次将它量化到2，候选区域已经出现了明显的偏差，更终要的是，该特征图上0.1像素的偏差缩放到原图就是3.2个像素，那么0.8的偏差，在原图上就是接近30个像素的差别。

在此之前先引入线性插值。

线性插值

已知数据 $(x_0, y_0)$ 与 $(x_1, y_1)$ ，要计算 $[x_0, x_1]$ 区间内某一位置 $x$ 在直线上的 $y$ 值，如下图所示。

目标检测算法-Mask-RCNN

计算方法很简单，通过斜率相等就可以构建y和x之间的关系，如下：
$\frac{y - y_0}{x - x_0} = \frac{y - y_1}{x - x_1} ====> y=\frac{x-x_0}{x_1-x_0}y_1+\frac{x_1-x}{x_1-x_0}y_0$
仔细看就是用 $x$ 和 $x_0$ ， $x_1$ 的距离作为一个权重（除以 $x-x_0$ 是归一化的作用），用于 $y_0$ 和 $y_1$ 的加权。这个思想很重要，因为知道了这个思想，理解双线性插值就非常简单了。

双线性插值。

双线性插值本质上就是在两个方向上做线性插值。

目标检测算法-Mask-RCNN

如图，假设我们想得到P点的插值，我们可以先在x方向上，对 $Q_{11}$ 和 $Q_{21}$ 之间做线性插值得到 $R_1$ ， $R_2$ 同理可得。然后在y方向上对 $R_1$ 和 $R_2$ 进行线性插值就可以得到最终的P。其实知道这个就已经理解了双线性插值的意思了，如果用公式表达则如下（注意 $f$ 前面的系数看成权重就很好理解了）。

首先在 x 方向进行线性插值，得到

目标检测算法-Mask-RCNN

然后在 y 方向进行线性插值，得到

这样就得到所要的结果 $f(x,y)$

所以ROIAlign中去掉了ROIPooling过程中所有的量化过程，包括从原图proposal到最后一层feature map映射，以及把feature map划分成m×m的bin过程的量化。

目标检测算法-Mask-RCNN

为了得到固定大小的feature map，ROIAlign技术并没有使用量化操作，既不引入量化误差。这里使用双线性插值来解决，利用双线性插值来估计这些蓝色点的像素值，然后在每一个网格内进行max pooling或average pooling操作，得到2×2的输出结果。整个过程中没有用到量化操作，没有引入误差，即原图中的像素和feature map中的像素是完全对齐的，没有偏差。

什么是mask分支

目标检测算法-Mask-RCNN

mask分支本质上是一个FCN网络，FCN采用反卷积层对最后一个卷积层得到的特征图进行上采样，对于每一个ROI，mask分支定义一个k×m×m的矩阵，表示k个不同的分类对于每一个m×m的区域，对于每一个类都有一个，对于每一个像素都使用sigmoid函数进行求相对熵，得到平局相对熵误差Lmask，对于每一个ROI如果检测得到的ROI属于哪一个类，就只使用哪一个分支的相对熵作为误差值进行计算，这样的定义使得我们的网络不需要去区分每一个像素属于哪一个类，只需要去区分在这个类当中的不同分别小类。这里要注意，在完成目标检测后用回归后哦的box取feature map上截取后，在经过ROIAlign后在进行mask。

点赞 0反对 0举报 0

免责声明：本文仅代表作者个人观点，与乐学笔记（本网）无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
本网站有部分内容均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责，若因作品内容、知识产权、版权和其他问题，请及时提供相关证明等材料并与我们留言联系，本网站将在规定时间内给予删除等相关处理.