rcnn论文文献下载

发布时间：2023-12-06 16:03:30

rcnn论文文献下载

原文： Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems. MIT Press, 2015:91-99.

译文参考： Faster R-CNN论文翻译——中英文对照

目标检测网络依赖于Region Proposal算法假设目标位置，通过引入Region Proposal（网络RPN），与检测网络共享全图像卷积特征，使得Region Proposals的成本近乎为零。

如下图所示，图a采用的是图像金子塔（Pyramids Of Images）方法；图b采用的是滤波器金字塔（Pyramids Of Filters）方法；图c引入“锚”盒（"Anchor" Boxes）这一概念作为多尺度和长宽比的参考，其可看作回归参考金字塔（Pyramids Of Regression References）方法，该方法可避免枚举图像、多尺度滤波器和长宽比。

为了将RPN与Fast R-CNN相结合，本文提出了一种新的训练策略：在region proposal任务和目标检测任务之间交替进行微调，同时保持proposals的固定。该方案能够快速收敛，两个任务之间并共享具有卷积特征的统一网络。

Faster R-CNN由两个模块组成：

RPN以任意大小的图像作为输入，输出一组矩形的目标proposals，每个proposals都有一个目标得分。在实验中，假设两个网络（RPN和Fast R-CNN）共享一组共同的卷积层，并研究了具有5个共享卷积层的 Zeiler和Fergus模型（ZF），以及具有13个共享卷积层的 Simonyan和Zisserman模型（VGG-16）。

为了生成region proposals，对最后的共享卷积层输出的卷积特征图谱使用一个小网络。该网络以卷积特征图谱的空间窗口作为输入，且每个滑动窗口映射到一个低维特征，所有空间位置共享全连接层。

该低维特征作为两个子全连接层———边界框回归层（box-regression layer, reg）和边界框分类层（box-classification layer, cls）的输入，其卷积核均为大小。

对于每个滑动窗口位置，可同时预测多个region proposals，最大region proposals数为。因此，reg层具有个输出，用于编码k个边界框的坐标；cls层具有个得分，用于估计每个proposal是目标或不是目标的概率。

Anchors：k个proposals相对于个参考框是参数化形式。

anchor位于滑动窗口的中心，并与尺度和长宽比相关。默认情况，使用3个尺度和3个长宽比，在每个滑动位置产生个anchors。对于大小为的卷积特征图谱，共产生个anchors。

基于anchor的方法建立在anchors金字塔（pyramid of anchors）上，参考多尺度和长宽比的anchor盒来分类和回归边界框，用于解决多尺度和多长宽比问题。

为了训练RPN，为每个anchor分配一个二值标签。

正标签：

负标签：IoU值低于。

对Fast R-CNN中的多任务损失进行最小化。图像的损失函数为：

其中，是mini-batch数据中anchor的索引，是第i个anchor作为目标的预测概率。若anchor为正标签，真值；反之，。是表示预测边界框4个参数化坐标的向量，是正真值框的向量。分类损失为两个类别的对数损失；回归损失，其中为在 Fast R-CNN 一文中定义的鲁棒损失函数（平滑）。表示回归损失仅对正anchor激活，否则被禁用（）。cls和rge层的输出分别由和组成。该两项使用和进行标准化，并使用平衡参数加权处理。等式中cls项根据mini-batch的大小进行归一化，而reg项根据anchor位置的数据进行归一化。默认情况下，从而使得cls和reg项的权重大致相等。

对于边界框回归，采用 Rich feature hierarchies for accurate object detection and semantic segmentation 一文中的4个坐标参数化方法：

其中，和表示边界框的中心坐标及其宽和高。变量和分别表示预测边界框、anchor和真值框。

采样策略：以图像为中心。

在图像中随机采样256个anchors，用于mini-batch数据中损失函数的计算，正负样本的比例为。

从标准差为的零均值高斯分布中提取权重来随机初始化所有的新网络层，而共享卷积层通过预训练ImageNet分类模型来初始化。同时，调整ZF网络的所有网络层，以及VGG网络的conv3_1之上的网络，用于节省内存的使用。对于60k的mini-batch数据，学习率为；对于PASCAL VOC数据集中的20k的mini-bacth数据，学习率为。随机梯度下降算法的动量设置为，重量衰减率为。

训练具有共享特征网络的三个方法：

版权印版权标识

对于目标检测方向并不是特别熟悉，本文记录一下RCNN, fast-RCNN, faster-RCNN, mask-RCNN这4篇有关目标检测的论文笔记和学习心得。

R-CNN的意思就是Region based，主要思路就是根据一张图像，提取多个region，再将每个Region输入CNN来进行特征的提取。因此RCNN就可以分为 Region proposals , Feature extraction 两个主要部分，提取的特征就可以输入任意一个分类器来进行分类。模型的流程图如下：

在训练的时候，首先使用的是已经训练好的CNN网络作为特征提取器，但是由于预训练是在分类数据集上，因此在应用到检测之前要做finetune。也就是说，为了将用ImageNet数据集训练的网络应用到新的任务（检测），新的数据集（region）上，作者将原来的CNN最后的1000类的fc层，更改为了层，代表待检测的物体的类别数。然后，对于所有的region，如果它和ground truth的重叠率大于，就认为是正类。对于分类器的训练，作者发现选择多大的IoU来区分正类和负类非常关键。并且，对于每一类，都会训练一个分类器。

框的回归非常重要，在对每一个region proposal使用分类器进行打分评价之后，作者使用一个回归器来预测一个新的框作为结果。这个回归器使用的特征是从CNN中提取的特征。回归器的训练中，输入是 region proposal 的和ground truth的，目标是学习一种变换，使得region proposal通过该变换能够接近ground truth。同时，希望这种变换拥有尺度不变性，也就是说尺度变化的话，变换不会改变。如下图所示，每一个regressor会学习一组参数，特征输入是pool 5的特征输出，拟合的目标是。

Fast-RCNN 主要解决的问题是在RCNN中对于每一个region proposal都进行特征提取，会产生非常多的冗余计算，因此可以先对一张图像进行特征提取，再根据region proposal在相应的特征上进行划分得到对应region的特征（映射关系）。这样便可以实现共享计算提高速度，但是与SPPnets不同，SPPnets在一副图像得到对应的特征后，从这张图像的特征上proposal对应的部分，采用空间金字塔池化，如下图：

RoI pooling的方法很简单，类似于空间金字塔pooling，它将proposal部分对应卷积层输出的特征（称之为RoI，因为用于做pooling的特征是 region of interest，也就是我们感兴趣的区域）划分成块，然后对每一块求最大值，最终得到了一个的特征图。可以看出，它只是空间金字塔pooling的一部分。但是SPP-nets的空间金字塔也是可以求导的，那么它到底不好在哪里呢？因为当每一个RoI都可能来源于不同的图像的时候（R-CNN和SPPnets的训练策略是从一个batch的不同图像中，分别挑选一个proposal region），SPPNets的训练非常地低效，这种低效来源于在SPPnets的训练中，每个RoI的感受野都非常地大，很可能对应了原图的整个图像，因此，得到的特征也几乎对应了整张图像，所以输入的图像也就很大。为了提高效率，Fast-RCNN首先选取个图像，再从每个图像上选择个RoI，这样的效率就比从每个图像提取一个RoI提高了倍。

为了将分类和框回归结合起来，作者采用了多任务的loss，来进行联合的训练。具体来说就是将分类的loss和框回归的loss结合起来。网络的设计上非常直接，就是将RoI得到的特征接几个FC层后，分别接不同的输出层。对应于分类部分，特征会接一个softmax输出，用于分类，对于框回归部分，会接一个输出4维特征的输出层，然后分别计算loss，用于反向传播。loss的公式如下：

回归的target可以参考前面的R-CNN部分。

notes

为什么比fast还fast呢？主要原因是在这篇论文中提出了一个新的层：RPN（region proposal networks）用于替代之前的selective search。这个层还可以在GPU上运算来提高速度。 RPN的目的：

为了能够进行region proposal，作者使用了一个小的网络，在基础的卷积层输出的特征上进行滑动，这个网络输入大小为，输入后会映射（用的卷积）为一个固定长度的特征向量，然后接两个并联的fc层（用的卷积层代替），这两个fc层，一个为box-regressoin，一个为box-classification。如下图：

在每一个滑动窗口（可以参考），为了考虑到尽可能多的框的情况，作者设计了anchors来作为region proposal。anchors就是对于每一个滑动窗口的中心位置，在该位置对应的原图位置的基础上，按照不同的尺度，长宽比例框出个不同的区域。然后根据这些anchors对应的原始图像位置以及区域，和ground truth，就可以给每一个滑动窗口的每一个anchor进行标记，也就是赋予label，满足一定条件标记为正类（比如和ground truth重叠大于一个值），一定条件为负类。对于正类，就可以根据ground truth和该anchor对应的原图的区域之间的变换关系（参考前面的R-CNN的框回归），得到回归器中的目标，用于训练。也就是论文中的loss function部分：

自然地，也就要求RPN的两个并联的FC层一个输出2k个值用于表示这k个anchor对应的区域的正类，负类的概率，另一个输出4k个值，用于表示框回归的变换的预测值。

对于整个网络的训练，作者采用了一种叫做 4-step Alternating Training 的方法。具体可以参考论文。

与之前的检测任务稍有不同，mask r-cnn的任务是做instance segmentation。因此，它需要对每一个像素点进行分类。与Faster R-CNN不同，Faster R-CNN对每一个候选框产生两个输出，一个是类别，一个是bounding box的offset。Mask R-CNN新增加了一个输出，作为物体的mask。这个mask类似于ps中的蒙版。

与Faster R-CNN类似的是，Mask R-CNN同样采用RPN来进行Region Proposal。但是在之后，对于每一个RoI，mask r-cnn还输出了一个二值化的mask。

不像类别，框回归，输出都可以是一个向量，mask必须保持一定的空间信息。因此，作者采用FCN来从每个RoI中预测一个的mask。

由于属于像素级别的预测问题，就需要RoI能够在进行特征提取的时候保持住空间信息，至少在像素级别上能够对应起来。因此，传统的取最大值的方法就显得不合适。 RoI Pooling，经历了两个量化的过程：第一个：从roi proposal到feature map的映射过程。第二个：从feature map划分成7*7的bin，每个bin使用max pooling。

为此，作者使用了RoIAlign。如下图

为了避免上面提到的量化过程

可以参考

作者使用ResNet作为基础的特征提取的网络。对于预测类别，回归框，mask的网络使用如下图结构：

整体看完这几篇大佬的论文，虽说没有弄清楚每一个实现细节，但是大体上了解了算法的思路。可以看出，出发点都源于深度神经网络在特征提取上的卓越能力，因此一众大神试图将这种能力应用在检测问题中。从R-CNN中简单地用于特征提取，到为了提高速度减少计算的Fast R-CNN，再到为了将region proposal集成进入整个模型中，并且利用GPU加速的RPN，也就是Faster R-CNN。再到为了应用于instance segmentation任务中，设计的RoIAlign和mask。包括bounding box regression，pooling层的设计，训练方法的选择，loss的设计等等细节，无一不体现了大师们的思考和创造力。可能在我们这些“拿来”者的眼中，这些方法都显得“理所应当”和巧妙，好用，但是，它们背后隐藏的选择和这些选择的思考却更值得我们学习。以及，对待每一个问题，如何设计出合理的解决方案，以及方案的效率，通用性，更是应该我们努力的方向。

rcnn论文题目

论文: Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

论文认为，目前的目标检测算法可以按预设框的多少分为两种：

上述两种方法都会预测大量的结果，需要进行NMS后处理，而在训练的时候会存在many-to-one的问题，并且anchor的设置对性能的影响很大。于是，很多研究开始探讨稀疏(sparse)检测，比如近期的DETR算法。该算法不需要预设anchor，并且预测的结果可直接输出，不需要后处理。但论文认为DETR并不是真正的稀疏检测，因为DETR在各位置提取特征时，需要与全图的上下文进行交互，而真正的稀疏检测应该满足sparse boxes和sparse features，即较少的初始框设定以及框之间不需要过多的特征互动。为此，论文提出了Sparse R-CNN，如图1c所示，仅需设定少量anchor即可进行检测，而且能够进行set prediction，免去NMS等后处理，其核心主要包含以下几点：

Sparse R-CNN的推理流程如图3所示，输入图片、可学习的proposal boxes以及可学习的proposal features，根据proposal boxes提取对应的RoIAlign特征，dynamic head将proposal features转换为卷积核参数，对RoIAlign特征进一步提取特征，再进行后续的分类和回归。整体的思想和Fast RCNN很像，将selective search替换为proposal boxes，再增加其它更强的模块。

论文采用FPN-ResNet作为主干网络，输出多层特征，每层特征的维度都是256。采用更复杂的主干网络可以获得更好的性能，但论文与Faster R-CNN对齐，采用标准的实现。

Sparse R-CNN的核心是采用数目固定的小批量可学习proposal boxes( )作为region proposal，而非RPN。每个box为4-d参数，在0～1范围内，值为归一化的中心点坐标、宽度和高度。这些参数在训练过程中通过反向传播进行更新，包含了训练集目标位置的统计信息，可用于推理时的初步目标位置猜测。

尽管4维的proposal box能够直观地表示目标的定位，但缺少了目标的信息，比如目标的姿态和形状，所以论文引入proposal feature( )进行补充。proposal features是高维的可学习向量，与proposal boxes一一对应，用于丰富目标的RoIAlign特征。

Dynamic instance interactive head的结构如图4所示，每个proposal box都有一个专属的预测head。给定个proposal boxes和个proposal features，先通过RoIAlign提取每个box的维特征，Dynamic instance interactive head将其对应的维proposal feature转换为卷积参数，使用这个卷积参数对RoIAlign特征进行提取，得到目标的维特征，最后经过简单的3层感知机进行分类与回归。 Dynamic instance interactive head也可以使用类似Cascade R-CNN那样的级联模式进一步的提升性能，将输出的新回归框和维特征作为下一次迭代的proposal box和proposal feature即可。

Sparse R-CNN的训练采用set prediction的形式，将固定数量的预测结果与GT之间进行二分图最优的匹配，然后计算损失值，完整的损失函数为：

各模块对比实验。

性能与收敛性。

在COCO上进行对比。

Sparse R-CNN贯彻了稀疏的思想，只提供少量初始框，可进行Set prediction，颠覆了当前密集预测的检测思路，整体框架十分简洁，跟Fast RCNN有点像，十分值得大家阅读。

论文名称：Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间：2014年论文地址：针对问题：从Alexnet提出后，作者等人思考如何利用卷积网络来完成检测任务，即输入一张图，实现图上目标的定位（目标在哪）和分类（目标是什么）两个目标，并最终完成了RCNN网络模型。创新点： RCNN提出时，检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢，作者采用的是Selective Search候选区域提取算法，来获得当前输入图上可能包含目标的不同图像块，再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。参考博客：。论文题目：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间：2014年论文地址：针对问题：该论文讨论了，CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后，在网络后端组织两组卷积或全连接层，一组用于实现定位，输出当前图像上目标的最小外接矩形框坐标，一组用于分类，输出当前图像上目标的类别信息。也是以此为起点，检测网络出现基础主干网络(backbone)+分类头或回归头（定位头）的网络设计模式雏形。创新点：在这篇论文中还有两个比较有意思的点，一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的，而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制，那用1x1卷积来替换FC层，是否可行呢？作者在测试时通过将全连接层替换为1x1卷积核证明是可行的；二是提出了offset max-pooling，也就是对池化层输入特征不能整除的情况，通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练，然后切换分类头为回归头，再训练回归头的参数，最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。参考博客：论文题目：Scalable Object Detection using Deep Neural Networks 提出时间：2014年论文地址：针对问题：既然CNN网络提取的特征可以直接用于检测任务（定位+分类），作者就尝试将目标框（可能包含目标的最小外包矩形框）提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。创新点：本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心，（800个anchor box）然后学习预测不考虑目标类别的二分类网络，背景or前景。用到了多尺度下的检测。参考博客：论文题目：DeepBox: Learning Objectness with Convolutional Networks 提出时间：2015年ICCV 论文地址：主要针对的问题：本文完成的工作与第三篇类似，都是对目标框提取算法的优化方案，区别是本文首先采用自底而上的方案来提取图像上的疑似目标框，然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序；而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点：本文作者想通过CNN学习输入图像的特征，从而实现对输入网络目标框是否为真实目标的情况进行计算，量化每个输入框的包含目标的可能性值。参考博客：论文题目：AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间：2015年ICCV 论文地址：主要针对的问题：对检测网络的实现方案进行思考，之前的执行策略是，先确定输入图像中可能包含目标位置的矩形框，再对每个矩形框进行分类和回归从而确定目标的准确位置，参考RCNN。那么能否直接利用回归的思路从图像的四个角点，逐渐得到目标的最小外接矩形框和类别呢？创新点：通过从图像的四个角点，逐步迭代的方式，每次计算一个缩小的方向，并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。参考博客：论文题目：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间：2014年论文地址：针对问题：如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络，在处理过程中就造成了图像块信息的损失。在实际的场景中，输入网络的目标尺寸很难统一，而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点：作者提出的SPPnet中，通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸，在训练的时候，池化的操作还是通过滑动窗口完成的，池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。参考博客：论文题目：Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间：2015年论文地址：针对问题：既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位，本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点：作者通过对输入网络的region进行一定的处理（通过数据增强，使得网络利用目标周围的上下文信息得到更精准的目标框）来增加网络对目标回归框的精度。具体的处理方式包括：扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置，使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性，从而提高了回归框的精度。参考博客：论文题目：Fast-RCNN 提出时间：2015年论文地址：针对问题： RCNN中的CNN每输入一个图像块就要执行一次前向计算，这显然是非常耗时的，那么如何优化这部分呢？创新点：作者参考了SPPNet（第六篇论文），在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸，从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图，再将原图上用Selective Search算法得到的目标框映射到特征图上，避免了特征的重复提取。参考博客：论文题目：DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间：2015年论文地址：主要针对的问题：本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文，作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。创新点：作者在不同的激活层上以滑动窗口的方式生成了假设，并表明最终的卷积层可以以较高的查全率找到感兴趣的对象，但是由于特征图的粗糙性，定位性很差。相反，网络的第一层可以更好地定位感兴趣的对象，但召回率降低。论文题目：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间：2015年NIPS 论文地址：主要针对的问题：由multibox（第三篇）和DeepBox（第四篇）等论文，我们知道，用CNN可以生成目标待检测框，并判定当前框为目标的概率，那能否将该模型整合到目标检测的模型中，从而实现真正输入端为图像，输出为最终检测结果的，全部依赖CNN完成的检测系统呢？创新点：将当前输入图目标框提取整合到了检测网络中，依赖一个小的目标框提取网络RPN来替代Selective Search算法，从而实现真正的端到端检测算法。参考博客：

论文：《Rich feature hierarchies for accurate object detection and semantic segmentation》发表年份：2013 RCNN(Regions with CNN features)是将CNN用到目标检测的一个里程碑，借助CNN良好的特征提取和分类性能，通过RegionProposal方法实现目标检测问题的转化。 Region proposal是一类传统的候选区域生成方法，论文使用 selective search 生成大约2k个候选区域（先用分割手段将图片完全分割成小图，再通过一些合并规则，将小图均匀的合并，经过若干次合并，直到合并成整张原图），然后将proposal的图片进行归一化(大小为217*217)用于CNN的输入。对每个Region proposal使用CNN提取出一个4096维的特征向量 CNN提取的特征输入到SVM分类器中，对region proposal进行分类，与 ground-truth box的IoU大于的为正样本，其余为负样本。论文中每个图片正样本个数为32负样本个数为96。得到所有region proposals的对于每一类的分数，再使用贪心的非极大值抑制方法对每一个SVM分类器类去除相交的多余的框。使用一个线性回归器对bounding box进行修正，proposal bounding box的大小位置与真实框的转换关系如下：综上，整个网络结构如下：R-CNN在当年无论是在学术界还是工业界都是具有创造性的，但是现在来看RCNN主要存在下面三个问题： 1）多个候选区域对应的图像需要预先提取，占用较大的磁盘空间； 2）针对传统CNN需要固定尺寸（217*217）的输入图像，crop/warp（归一化）产生物体截断或拉伸，丧失或者改变了图片本身的信息； 3）每一个ProposalRegion都需要进入CNN网络计算，上千个Region存在大量的范围重叠，重复的CNN特征提取导致巨大的计算浪费。论文：《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》发表年份：2015 既然CNN特征提取如此耗时，为什么还要对每个Region proposal进行特征提取，而不是整体进行特征提取，然后在分类之前做一次Region的截取呢，于是就诞生了SPP-Net。 1.解决了CNN需要固定大小输入的变换后导致图片信息丢失或者变化的问题 2.对于一张图，只需要进行一次的特征提取运算，避免了R-CNN中特征重复计算的问题 CNN为什么需要固定大小的输入？ R-CNN中会对图片缩放成217*217的固定大小，从而导致物体发生形变（如下图的上部分所示）。与前面不同，SPP-Net是加在最后一个卷积层的输出的后面，使得不同输入尺寸的图像在经过前面的卷积池化过程后，再经过SPP-net，得到相同大小的feature map，最后再经过全连接层进行分类以AlexNet为例，经CNN得到conv5输出的任意尺寸的feature map，图中256-d是conv5卷积核的数量。将最后一个池化层pool5替换成SPP layer，将feature map划分成不同大小的网格，分别是`4x4`,`2x2`,`1x1`，每个网格中经过max pooling，从而得到4x4+2x2+1x1=21个特征值，最后将这21个特征值平铺成一个特征向量作为全连接层的输入，这种方式就是空间金字塔池化。与R-CNN不同，SPP-Net中是将整张图片进行一次特征提取，得到整张图片的feature map，然后对feature map中的候选区域（RoIs）经过空间金字塔池化，提取出固定长度的特征向量进入全连接层。原图候选区域与特征图上的RoIs的转换流程：综上，整个网络结构如下图。SPP-Net相比R-CNN做了很多优化，但现在来看依然存在一些问题，主要如下：论文：《Fast R-CNN》发表年份：2015 Fast R-CNN是对R-CNN的一个提升版本，相比R-CNN，训练速度提升9倍，测试速度提升213倍，mAP由66%提升到主要改进点如下：多任务损失函数(Multi-task Loss)： Fast R-CNN将分类和边框回归合并，通过多任务Loss层进一步整合深度网络，统一了训练过程。分为两个损失函数：分类损失和回归损失。分类采用softmax代替SVM进行分类，共输出N(类别)+1(背景)类。softmax由于引入了类间竞争，所以分类效果优于SVM，SVM在R-CNN中用于二分类。回归损失输出的是4*N(类别)，4表示的是(x,y,w,h分别表示候选框的中心坐标和宽、高)。 SVD对全连接层进行分解：由于一张图像约产生2000个RoIs，将近一半多的时间用在全连接层计算，为了提高运算速度，使用 SVD(奇异值分解) 对全连接层进行变换来提高运算速度。一个大的矩阵可以近似分解为三个小矩阵的乘积，分解后的矩阵的元素数目远小于原始矩阵的元素数目，从而达到减少计算量的目的。通过对全连接层的权值矩阵进行SVD分解，使得处理一张图像的速度明显提升。论文：《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》发表年份：2016 SPP-Net和Fast R-CNN都有一个非常耗时的候选框选取的过程，提取候选框最常用的SelectiveSearch方法，提取一副图像大概需要2s的时间，改进的EdgeBoxes算法将效率提高到了，但是还是比较耗时。 Fast R-CNN中引入Region Proposal Network(RPN)替代Selective Search，同时引入anchor box应对目标形状的变化问题（anchor就是位置和大小固定的box，可以理解成事先设置好的固定的proposal） Region Proposal Network： RPN的核心思想是候选框的提取不在原图上做，而是在feature map上做，这意味着相比原图更少的计算量。在Faster R-CNN中，RPN是单独的分支，通过RPN提取候选框并合并到深度网络中。多尺度先验框： RPN网络的特点在于通过滑动窗口的方式实现候选框的提取，每个滑动窗口位置生成9个候选窗口（不同尺度、不同宽高），提取对应9个候选窗口（anchor）的特征，用于目标分类和边框回归，与FastRCNN类似。anchor的生成规则有两个：调整宽高比和放大。如下图所示，假设base_size为16，按照1:2,1:1,2:1三种比例进行变换生成下图上部分三种anchor；第二种是将宽高进行三种倍数放大，2^3=8，2^4=16，2^5=32倍的放大，如16x16的区域变成(16*8)*(16*8)=128*128的区域，(16*16)*(16*16)=256*256的区域，(16*32)*(16*32)=512*512的区域。训练过程中，涉及到的候选框选取，选取依据如下：从模型训练的角度来看，通过使用共享特征交替训练的方式，达到接近实时的性能，交替训练方式为： Faster R-CNN实现了端到端的检测，并且几乎达到了效果上的最优，有些基于Faster R-CNN的变种准确度已经刷到了87%以上。速度方面还有优化的余地，比如Yolo系列（Yolo v1/v2/v3/v4）。对于目标检测，仍处于一个探索和高度发展的阶段，还不断有更优的模型产生。

文献下载论文

中国知网怎么免费下载论文，具体如下：

首先学生需要登录自己的校园网，在校园网首页中找到知网查重入口，点击进入后使用学校提供的账号和密码登录知网，学生即可享受免费查看文献的服务。

学生可以在知网首页搜索想要的文献标题，进入文献页面后点击下方的手机阅读或者html阅读，学生即可在知网免费查看全文论文内容。学生也可以点击caj下载或者pdf下载，将文献下载导出至电脑中。

1、输入，点击选择自己的大学；

2、以清华大学为例，输入自己的学号和密码并登入；

3、登录成功后，即可免费查看对应论文内容。

中国知网，始建于1999年6月，是中国核工业集团资本控股有限公司控股的同方股份有限公司旗下的学术平台。知网是国家知识基础设施（National Knowledge Infrastructure，NKI）的概念，由世界银行于1998年提出。CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建设项目。

外国文献期刊找法如下：

操作设备：戴尔电脑

操作系统：win10

操作软件：浏览器

1、首先输入“知网”字样，点击知网官网，如下图所示：

2、进入知网官网以后，点击搜索栏右侧的“高级检索”选项，如下图所示：

3、在高级检索状态下，将检索结果选定在“外文文献”区域，比如这里的“light”和“agricultural”，然后检索，如下图所示：

4、在所有检索结果中，我们可以根据自己的需要点开文章的标题，查看文章的摘要，以作筛查，如下图所示：

5、当我们看过摘要，确定要这篇文章的时候，就点击下方的“全文下载”按钮，如下图所示：

6、接着就会弹出一个全英文的界面，我们在文章标题右侧可以找到“DOWNLOADPDF”的字样，点击它，如下图所示：

7、这是浏览器就会打开这一篇文章的pdf文档，如果需要打印或者下载的话，点击右上角的打印或下载按钮即可，如下图所示：

下载国外文献可以用下面这几个网站1、谷歌学术免费检索外文学术论文，部分文献可直接下载2、sci-hub免费下载外文文献，只是网站不太稳定需要经常查找新的域名，sci-hub也有没有收录的文献，特别是下载2022年及以后的文献暂时就不要用这个网站了。3、谷歌学术和sci-hub都下载不了的文献需要去文献来源数据库中下载，可以用文献党下载器（）该网站几乎整合汇集了所有中外文献数据库资源，覆盖全科。4、Web of Science是获取全球学术信息的重要数据库，和谷歌学术近似，但检索功能更强大。并且Web of Science 包括著名的三大引文索引数据库(SCI、SSCI、A&HCI)。如果没有Web of Science使用权限可参考第3条。

下载论文文献

方法如下：

电脑型号：华硕A456U。

电脑系统：win10。

软件：知网。

1、首先打开电脑上面的浏览器，然后搜索知网，点击知网官网进入其中。

2、在知网中输入自己想要的搜寻的文章然后点击搜索按钮。

3、在搜索的结果中选中自己想要导出的参考文献。

4、然后在菜单栏中，点击导出与分析，再点击导出文献。

5、一般论文中文献的格式是GB/T 7714-2015 ，直接点击导出按钮。

6、除了GB/T 7714-2015格式，还有其他的引文格式。这里还可以导出Endnot格式，可以批量管理添加参考文献。

外国文献期刊找法如下：

操作设备：戴尔电脑

操作系统：win10

操作软件：浏览器

1、首先输入“知网”字样，点击知网官网，如下图所示：

2、进入知网官网以后，点击搜索栏右侧的“高级检索”选项，如下图所示：

3、在高级检索状态下，将检索结果选定在“外文文献”区域，比如这里的“light”和“agricultural”，然后检索，如下图所示：

4、在所有检索结果中，我们可以根据自己的需要点开文章的标题，查看文章的摘要，以作筛查，如下图所示：

5、当我们看过摘要，确定要这篇文章的时候，就点击下方的“全文下载”按钮，如下图所示：

6、接着就会弹出一个全英文的界面，我们在文章标题右侧可以找到“DOWNLOADPDF”的字样，点击它，如下图所示：

7、这是浏览器就会打开这一篇文章的pdf文档，如果需要打印或者下载的话，点击右上角的打印或下载按钮即可，如下图所示：

我开通了校园网，但是我使用的校外访问。

在登录知网的时候，你是看下右下角有个校外访问，你点进去登录试试。

我提前说明一下，我是买了校园网的，但是我用的我手机的wifi热点连上得网络，然后使用的是“校外访问”登录上去的。登录成功后显示的是你的学校的名字，不是你个人的名字。

有CAJ 和PDF两种格式的论文，PDF格式，大部分电脑都有自带的软件，比如WORD,WPS,ADOBE等等。但是CAJ，英文是China acdamic Joural 中国学术期刊，这种格式你需要下载E-STUDY 或者叫什么CAJ浏览器，我觉得E-study比较好，因为这个都嫩用，CAJ浏览器只能看CAJ的。

另外，我找到这篇文章，你可以自己看！

（网页链接）

查找下载中文文献常用数据库：知网、万方、维普、超星/读秀（电子书）查找下载外文文献常用数据库：谷歌学术、Web of Science（ISI引文索引）、Wiley 、EI（工程索引）、PubMed （生物医学）、Elsevier（sciencedirect）没有文献数据库使用权限无法下载文献用：文献党下载器（）

下载带有文献的论文在哪下载

免费下载知网论文的方法如下：

1、方法一：到中国国家图书馆网站上注册一个账号。进入知网，然后通过关键词i检索文献，之后将需要的文章标题复制下来，然后再从国家图书馆的入口进入知网搜索刚才复制下的标题，就能下载了。登陆之后下载这些期刊论文都是免费的。

2、方法二：超星移动图书馆，不过要等推送，慢。使用方法，首先你要是个学生，有学校的图书馆账号，一般就是你的学号。超星移动图书馆有网页版、PC版的，也有手机版和苹果版的，选择学校，用学校图书馆账号登录，绑定邮箱，然后你搜索到想要的文献后选择文献推送，就会把文献发给你的邮箱，承诺是48小时到，我一般遇上的都是第二天到。

3、方法三：学校VPN。各大高校基本提供了VPN，校园外用户可以使用vpn2，登陆后从“图书馆电子资源导航”进入即可。

4、方法四：上中国知网，根据下载量、引用量，选择期刊或论文，文献非常多，但无法查看完整文章。之后打开道客巴巴网站，搜索文章名称，基本都可以找到完整的文章但无法免费下载。下载“ 海纳百川 ”软件，专门针对道客巴巴的文章可以直接免费下载PDF版。

1，打开网页，在搜索栏里输入“中国知网”，点击搜索。进入界面，查找“中国知网”的官网，点击进入。2，进入“中国知网”首页，默认的文献检索方式是以”主题“进行检索。除此之外，还有很多方式，”关键词“、”作者“、”篇名等等“，根据需要选择更换。3，以”主题“检索为例，输入想要导出参考文献的题目，比如论文《底层、学校与阶级再生产》，输入完成后，点击搜索按钮。4，界面下方会出现和输入主题相似题目的文献，找到题目一致的论文后，点击选中前方的方格按钮。上方会显示选中文献的个数，”已选文献：1“，系统不会自动清除以往选过的论文数量，需要手动点击”清除“，才能清零。5，选中要导出的参考文献后，点击”导出/参考文献“，进入到”文献输出“界面。点击”导出“或者点击”复制到剪贴板“，两种方法均可。6.常用复制到剪贴板，格式字体变化的不大，点击”复制到剪贴板“，界面显示”已成功复制到剪贴板“即可前往文档中粘贴参考文献的格式。7，如果有多个文献需要导出文献格式，就把界面中的文献都选中，已选文献数量会提示选中了几篇文章。点击”导出/参考文献“，点击”导出“或”复制到剪贴板“。如需重新选择文献，按界面提示操作即可。

索引序列
rcnn论文文献下载
rcnn论文题目
文献下载论文
下载论文文献
下载带有文献的论文在哪下载
返回顶部

rcnn论文文献下载