roi论文模板

3个回答默认排序

默认排序

按时间排序

Samantna523

已采纳

本文主要用于介绍Kaiming He, rbg等大神于2017年提出的Mask R-CNN网络，该网络架构是在其前作Fast R-CNN上的升级改进版可以用于实例分割。本笔记主要为自我温习回顾，以备后用。

论文链接： github主页： rbg大神个人主页：恺明大神的演讲视频：

为更好的理解该论文，建议先行阅读Faster R-CNN网络的相关论文，这里也附上本菇之前写的1篇论文笔记供大家参考～ Faster R-CNN理解

基本目录如下：

------------------第一菇 - 摘要------------------

我们从概念上提出了一种简单，易变和通用的框架用于目标实例分割。我们的方法能够高效的在一张图片中检测出物体同时对于该物体生成高质量的分割蒙版（segmentation mask），我们称此方法为，“Mask R-CNN”，其本质也是由Faster R-CNN衍化而来的，就是在Faster R-CNN后面多加了一个分支用于预测目标的蒙版，跟预测目标的识别和位置的分支是平行的。Mask R-CNN也易于去训练，仅仅只比Faster R-CNN慢一点，运行效率达到5fps。另外，Mask R-CNN也能够十分简单的被转移去训练其他的任务，比如去预测人体的姿态关键点。我们在COCO数据集上运用该模型训练了多个任务，包括实例分割，目标框预测和人体关键点检测，均取得不错的成绩。我们希望Mask R-CNN能够成为业界新的标杆，并能被广泛运用于新领域的研究。

------------------第二菇 - 核心思想------------------

整体架构十分容易理解，就是在RPN之后新添了一个分支用于预测mask的。网上其他的讲解资料也很多，这里我只记录一下Mask R-CNN中的重点，RoIAlign。不过我们还是先来温习一下，什么是RoIPool的实现原理。

为了搞明白原理，我们先问一个问题，为什么需要RoIPool？原因就是经过RPN生成的候选区域大小不一样，无法直接连接全连接层进行后续的分类及定位处理，因此需要RoIPool层将其转为固定维度大小的特征。当然这是很明确的一个原因，不过还有一个潜在的原因可以理解为特征的二次提取。因为在RPN中，特征只被共享卷积层提取过一次，而为了提升后续的定位及分类准确率，对于每一个候选区域进一步提取特征也是符合逻辑的，贴一张示意图，方便理解，

原理很简单，我们再来看具体的细节处理，会产生的像素偏差。

第一个就是从输入图上的RoI到特征图上的RoI Feature，

假如现在我们输入了一张的图像，图像中有2个目标（狗和猫），其中狗的识别框为，经过VGG16网络后，图像得到对应的feature map为（5次池化操作），而对应的狗的识别框就变为了，因此这里就会有一个误差，于是这里就有了第一个量化操作，即取整，使其结果变为，如下所示（右图中未能重叠的部分就是误差了～）

第二个误差就是将每个特征转化为固定大小维度的时候所产生的。比如现在要将的特征映射到上，对应的大小就是了，因此同上这里又会有一个误差，于是就有了第二个量化操作，也是取整。即原先由大小生成的值，现在只由的大小生成了～虽然看起来这是一个很小很小的误差，但是要知道，这时候我们的感受野已经是32倍了，相当于原图的像素差了～

这里也贴一张网上流行的RoIPool的示意图，帮助理解，

因此以上两种取整的量化操作，对于分类问题来说可能影响不大，但是对于实例分割这种像素级别的，细微的像素误差可能就会导致最终结果的崩坏。因此，本文才会提出了RoIAlign，其主要目的就是为了消除这种误差的。

简单来讲，RoIAlign的作用就是用双线性插值的办法取代了之前的取整操作，从而使得每个RoI取得的特征能更好的对齐原图上的RoI区域。具体来讲，双线性插值是一种比较理想的图像缩放算法，他通过拟合一个虚拟的点（该点的值由其周围4个确定点的像素值决定），从而将那些浮点数的点的值给表达出来，如下图所示，

作者同时也强调了一件事情，即，

We note that the results are not sensitive to the exact sampling locations, or how many points are sampled, as long as no quantization is performed.

也就是说该方法对采样点的个数和位置并不是十分敏感在意的～而且采用了这种方法以后，准确率有了很大的提升～！

至此，整一个新的RoIAlign层的作用及原理算是讲明白了。

剩下的网络架构类的，实现细节等不再多记录了。

------------------第三菇 - 总结------------------

本文主要是记录了Mask R-CNN中的一个创新难点，ROIAlign的作用及实现方法，其他有关Mask R-CNN的相信不难理解。

参考文献：【1】

168 评论 1小时前发布

starcraftgod

对于目标检测方向并不是特别熟悉，本文记录一下RCNN, fast-RCNN, faster-RCNN, mask-RCNN这4篇有关目标检测的论文笔记和学习心得。

R-CNN的意思就是Region based，主要思路就是根据一张图像，提取多个region，再将每个Region输入CNN来进行特征的提取。因此RCNN就可以分为 Region proposals , Feature extraction 两个主要部分，提取的特征就可以输入任意一个分类器来进行分类。模型的流程图如下：

在训练的时候，首先使用的是已经训练好的CNN网络作为特征提取器，但是由于预训练是在分类数据集上，因此在应用到检测之前要做finetune。也就是说，为了将用ImageNet数据集训练的网络应用到新的任务（检测），新的数据集（region）上，作者将原来的CNN最后的1000类的fc层，更改为了层，代表待检测的物体的类别数。然后，对于所有的region，如果它和ground truth的重叠率大于，就认为是正类。对于分类器的训练，作者发现选择多大的IoU来区分正类和负类非常关键。并且，对于每一类，都会训练一个分类器。

框的回归非常重要，在对每一个region proposal使用分类器进行打分评价之后，作者使用一个回归器来预测一个新的框作为结果。这个回归器使用的特征是从CNN中提取的特征。回归器的训练中，输入是 region proposal 的和ground truth的，目标是学习一种变换，使得region proposal通过该变换能够接近ground truth。同时，希望这种变换拥有尺度不变性，也就是说尺度变化的话，变换不会改变。如下图所示，每一个regressor会学习一组参数，特征输入是pool 5的特征输出，拟合的目标是。

Fast-RCNN 主要解决的问题是在RCNN中对于每一个region proposal都进行特征提取，会产生非常多的冗余计算，因此可以先对一张图像进行特征提取，再根据region proposal在相应的特征上进行划分得到对应region的特征（映射关系）。这样便可以实现共享计算提高速度，但是与SPPnets不同，SPPnets在一副图像得到对应的特征后，从这张图像的特征上proposal对应的部分，采用空间金字塔池化，如下图：

RoI pooling的方法很简单，类似于空间金字塔pooling，它将proposal部分对应卷积层输出的特征（称之为RoI，因为用于做pooling的特征是 region of interest，也就是我们感兴趣的区域）划分成块，然后对每一块求最大值，最终得到了一个的特征图。可以看出，它只是空间金字塔pooling的一部分。但是SPP-nets的空间金字塔也是可以求导的，那么它到底不好在哪里呢？因为当每一个RoI都可能来源于不同的图像的时候（R-CNN和SPPnets的训练策略是从一个batch的不同图像中，分别挑选一个proposal region），SPPNets的训练非常地低效，这种低效来源于在SPPnets的训练中，每个RoI的感受野都非常地大，很可能对应了原图的整个图像，因此，得到的特征也几乎对应了整张图像，所以输入的图像也就很大。为了提高效率，Fast-RCNN首先选取个图像，再从每个图像上选择个RoI，这样的效率就比从每个图像提取一个RoI提高了倍。

为了将分类和框回归结合起来，作者采用了多任务的loss，来进行联合的训练。具体来说就是将分类的loss和框回归的loss结合起来。网络的设计上非常直接，就是将RoI得到的特征接几个FC层后，分别接不同的输出层。对应于分类部分，特征会接一个softmax输出，用于分类，对于框回归部分，会接一个输出4维特征的输出层，然后分别计算loss，用于反向传播。loss的公式如下：

回归的target可以参考前面的R-CNN部分。

notes

为什么比fast还fast呢？主要原因是在这篇论文中提出了一个新的层：RPN（region proposal networks）用于替代之前的selective search。这个层还可以在GPU上运算来提高速度。 RPN的目的：

为了能够进行region proposal，作者使用了一个小的网络，在基础的卷积层输出的特征上进行滑动，这个网络输入大小为，输入后会映射（用的卷积）为一个固定长度的特征向量，然后接两个并联的fc层（用的卷积层代替），这两个fc层，一个为box-regressoin，一个为box-classification。如下图：

在每一个滑动窗口（可以参考），为了考虑到尽可能多的框的情况，作者设计了anchors来作为region proposal。anchors就是对于每一个滑动窗口的中心位置，在该位置对应的原图位置的基础上，按照不同的尺度，长宽比例框出个不同的区域。然后根据这些anchors对应的原始图像位置以及区域，和ground truth，就可以给每一个滑动窗口的每一个anchor进行标记，也就是赋予label，满足一定条件标记为正类（比如和ground truth重叠大于一个值），一定条件为负类。对于正类，就可以根据ground truth和该anchor对应的原图的区域之间的变换关系（参考前面的R-CNN的框回归），得到回归器中的目标，用于训练。也就是论文中的loss function部分：

自然地，也就要求RPN的两个并联的FC层一个输出2k个值用于表示这k个anchor对应的区域的正类，负类的概率，另一个输出4k个值，用于表示框回归的变换的预测值。

对于整个网络的训练，作者采用了一种叫做 4-step Alternating Training 的方法。具体可以参考论文。

与之前的检测任务稍有不同，mask r-cnn的任务是做instance segmentation。因此，它需要对每一个像素点进行分类。与Faster R-CNN不同，Faster R-CNN对每一个候选框产生两个输出，一个是类别，一个是bounding box的offset。Mask R-CNN新增加了一个输出，作为物体的mask。这个mask类似于ps中的蒙版。

与Faster R-CNN类似的是，Mask R-CNN同样采用RPN来进行Region Proposal。但是在之后，对于每一个RoI，mask r-cnn还输出了一个二值化的mask。

不像类别，框回归，输出都可以是一个向量，mask必须保持一定的空间信息。因此，作者采用FCN来从每个RoI中预测一个的mask。

由于属于像素级别的预测问题，就需要RoI能够在进行特征提取的时候保持住空间信息，至少在像素级别上能够对应起来。因此，传统的取最大值的方法就显得不合适。 RoI Pooling，经历了两个量化的过程：第一个：从roi proposal到feature map的映射过程。第二个：从feature map划分成7*7的bin，每个bin使用max pooling。

为此，作者使用了RoIAlign。如下图

为了避免上面提到的量化过程

可以参考

作者使用ResNet作为基础的特征提取的网络。对于预测类别，回归框，mask的网络使用如下图结构：

整体看完这几篇大佬的论文，虽说没有弄清楚每一个实现细节，但是大体上了解了算法的思路。可以看出，出发点都源于深度神经网络在特征提取上的卓越能力，因此一众大神试图将这种能力应用在检测问题中。从R-CNN中简单地用于特征提取，到为了提高速度减少计算的Fast R-CNN，再到为了将region proposal集成进入整个模型中，并且利用GPU加速的RPN，也就是Faster R-CNN。再到为了应用于instance segmentation任务中，设计的RoIAlign和mask。包括bounding box regression，pooling层的设计，训练方法的选择，loss的设计等等细节，无一不体现了大师们的思考和创造力。可能在我们这些“拿来”者的眼中，这些方法都显得“理所应当”和巧妙，好用，但是，它们背后隐藏的选择和这些选择的思考却更值得我们学习。以及，对待每一个问题，如何设计出合理的解决方案，以及方案的效率，通用性，更是应该我们努力的方向。

88 评论 2小时前发布

mono默默

论文里的目标值就是你要围绕什么目标写论文啊，要达到什么水平

242 评论 11小时前发布

roi论文模板

3个回答 默认排序 默认排序 按时间排序

相关问答

职称论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序