目标检测rcnn论文详解

发布时间：2023-12-07 05:44:57

目标检测rcnn论文详解

论文: Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

论文认为，目前的目标检测算法可以按预设框的多少分为两种：

上述两种方法都会预测大量的结果，需要进行NMS后处理，而在训练的时候会存在many-to-one的问题，并且anchor的设置对性能的影响很大。于是，很多研究开始探讨稀疏(sparse)检测，比如近期的DETR算法。该算法不需要预设anchor，并且预测的结果可直接输出，不需要后处理。但论文认为DETR并不是真正的稀疏检测，因为DETR在各位置提取特征时，需要与全图的上下文进行交互，而真正的稀疏检测应该满足sparse boxes和sparse features，即较少的初始框设定以及框之间不需要过多的特征互动。为此，论文提出了Sparse R-CNN，如图1c所示，仅需设定少量anchor即可进行检测，而且能够进行set prediction，免去NMS等后处理，其核心主要包含以下几点：

Sparse R-CNN的推理流程如图3所示，输入图片、可学习的proposal boxes以及可学习的proposal features，根据proposal boxes提取对应的RoIAlign特征，dynamic head将proposal features转换为卷积核参数，对RoIAlign特征进一步提取特征，再进行后续的分类和回归。整体的思想和Fast RCNN很像，将selective search替换为proposal boxes，再增加其它更强的模块。

论文采用FPN-ResNet作为主干网络，输出多层特征，每层特征的维度都是256。采用更复杂的主干网络可以获得更好的性能，但论文与Faster R-CNN对齐，采用标准的实现。

Sparse R-CNN的核心是采用数目固定的小批量可学习proposal boxes( )作为region proposal，而非RPN。每个box为4-d参数，在0～1范围内，值为归一化的中心点坐标、宽度和高度。这些参数在训练过程中通过反向传播进行更新，包含了训练集目标位置的统计信息，可用于推理时的初步目标位置猜测。

尽管4维的proposal box能够直观地表示目标的定位，但缺少了目标的信息，比如目标的姿态和形状，所以论文引入proposal feature( )进行补充。proposal features是高维的可学习向量，与proposal boxes一一对应，用于丰富目标的RoIAlign特征。

Dynamic instance interactive head的结构如图4所示，每个proposal box都有一个专属的预测head。给定个proposal boxes和个proposal features，先通过RoIAlign提取每个box的维特征，Dynamic instance interactive head将其对应的维proposal feature转换为卷积参数，使用这个卷积参数对RoIAlign特征进行提取，得到目标的维特征，最后经过简单的3层感知机进行分类与回归。 Dynamic instance interactive head也可以使用类似Cascade R-CNN那样的级联模式进一步的提升性能，将输出的新回归框和维特征作为下一次迭代的proposal box和proposal feature即可。

Sparse R-CNN的训练采用set prediction的形式，将固定数量的预测结果与GT之间进行二分图最优的匹配，然后计算损失值，完整的损失函数为：

各模块对比实验。

性能与收敛性。

在COCO上进行对比。

Sparse R-CNN贯彻了稀疏的思想，只提供少量初始框，可进行Set prediction，颠覆了当前密集预测的检测思路，整体框架十分简洁，跟Fast RCNN有点像，十分值得大家阅读。

paper： Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Tensorflow-faster r-cnn github: Tensorflow Faster RCNN for Object Detection faster rcnn是何凯明等大神在2015年提出目标检测算法，该算法在2015年的ILSVRV和COCO竞赛中获得多项第一。该算法在fast rcnn基础上提出了RPN候选框生成算法，使得目标检测速度大大提高。 (1)image input； (2)利用selective search 算法在图像中从上到下提取2000个左右的Region Proposal； (3)将每个Region Proposal缩放(warp)成227*227的大小并输入到CNN，将CNN的fc7层的输出作为特征； (4)将每个Region Proposal提取的CNN特征输入到SVM进行分类； (5)对于SVM分好类的Region Proposal做边框回归，用Bounding box回归值校正原来的建议窗口，生成预测窗口坐标. 缺陷: (1) 训练分为多个阶段，步骤繁琐：微调网络+训练SVM+训练边框回归器； (2) 训练耗时，占用磁盘空间大；5000张图像产生几百G的特征文件； (3) 速度慢：使用GPU，VGG16模型处理一张图像需要47s； (4) 测试速度慢：每个候选区域需要运行整个前向CNN计算； (5) SVM和回归是事后操作，在SVM和回归过程中CNN特征没有被学习更新. (1)image input； (2)利用selective search 算法在图像中从上到下提取2000个左右的建议窗口(Region Proposal)； (3)将整张图片输入CNN，进行特征提取； (4)把建议窗口映射到CNN的最后一层卷积feature map上； (5)通过RoI pooling层使每个建议窗口生成固定尺寸的feature map； (6)利用Softmax Loss(探测分类概率) 和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练. 相比R-CNN，主要两处不同: (1)最后一层卷积层后加了一个ROI pooling layer； (2)损失函数使用了多任务损失函数(multi-task loss)，将边框回归直接加入到CNN网络中训练改进: (1) 测试时速度慢：R-CNN把一张图像分解成大量的建议框，每个建议框拉伸形成的图像都会单独通过CNN提取特征.实际上这些建议框之间大量重叠，特征值之间完全可以共享，造成了运算能力的浪费. FAST-RCNN将整张图像归一化后直接送入CNN，在最后的卷积层输出的feature map上，加入建议框信息，使得在此之前的CNN运算得以共享. (2) 训练时速度慢：R-CNN在训练时，是在采用SVM分类之前，把通过CNN提取的特征存储在硬盘上.这种方法造成了训练性能低下，因为在硬盘上大量的读写数据会造成训练速度缓慢. FAST-RCNN在训练时，只需要将一张图像送入网络，每张图像一次性地提取CNN特征和建议区域，训练数据在GPU内存里直接进Loss层，这样候选区域的前几层特征不需要再重复计算且不再需要把大量数据存储在硬盘上. (3) 训练所需空间大：R-CNN中独立的SVM分类器和回归器需要大量特征作为训练样本，需要大量的硬盘空间.FAST-RCNN把类别判断和位置回归统一用深度网络实现，不再需要额外存储. (4) 由于ROI pooling的提出，不需要再input进行Corp和wrap操作，避免像素的损失，巧妙解决了尺度缩放的问题. (1)输入测试图像； (2)将整张图片输入CNN，进行特征提取； (3)用RPN先生成一堆Anchor box，对其进行裁剪过滤后通过softmax判断anchors属于前景(foreground)或者后景(background)，即是物体or不是物体，所以这是一个二分类；同时，另一分支bounding box regression修正anchor box，形成较精确的proposal（注：这里的较精确是相对于后面全连接层的再一次box regression而言） (4)把建议窗口映射到CNN的最后一层卷积feature map上； (5)通过RoI pooling层使每个RoI生成固定尺寸的feature map； (6)利用Softmax Loss(探测分类概率) 和Smooth L1 Loss(探测边框回归)对分类概率和边框回归(Bounding box regression)联合训练. 相比FASTER-RCNN，主要两处不同: (1)使用RPN(Region Proposal Network)代替原来的Selective Search方法产生建议窗口； (2)产生建议窗口的CNN和目标检测的CNN共享改进: (1) 如何高效快速产生建议框？ FASTER-RCNN创造性地采用卷积网络自行产生建议框，并且和目标检测网络共享卷积网络，使得建议框数目从原有的约2000个减少为300个，且建议框的质量也有本质的提高. 从上面的三张图可以看出，Faster R CNN由下面几部分组成： 1.数据集，image input 2.卷积层CNN等基础网络，提取特征得到feature map 层，再在经过卷积层提取到的feature map上用一个3x3的slide window，去遍历整个feature map,在遍历过程中每个window中心按rate，scale（1:2,1:1,2:1）生成9个anchors，然后再利用全连接对每个anchors做二分类（是前景还是背景）和初步bbox regression，最后输出比较精确的300个ROIs。 3-2.把经过卷积层feature map用ROI pooling固定全连接层的输入维度。 4.然后把经过RPN输出的rois映射到ROIpooling的feature map上进行bbox回归和分类。 SPP-Net是出自论文《Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition》由于一般的网络结构中都伴随全连接层，全连接层的参数就和输入图像大小有关，因为它要把输入的所有像素点连接起来,需要指定输入层神经元个数和输出层神经元个数，所以需要规定输入的feature的大小。而SPP-NET正好解决了这个问题。如果原图输入是224x224，对于conv5出来后的输出，是13x13x256的，可以理解成有256个这样的filter，每个filter对应一张13x13的activation map.如果像上图那样将activation map pooling成4x4 2x2 1x1三张子图，做max pooling后，出来的特征就是固定长度的(16+4+1)x256那么多的维度了.如果原图的输入不是224x224，出来的特征依然是(16+4+1)x256；直觉地说，可以理解成将原来固定大小为(3x3)窗口的pool5改成了自适应窗口大小，窗口的大小和activation map成比例，保证了经过pooling后出来的feature的长度是一致的. 总结而言，当网络输入的是一张任意大小的图片，这个时候我们可以一直进行卷积、池化，直到网络的倒数几层的时候，也就是我们即将与全连接层连接的时候，就要使用金字塔池化，使得任意大小的特征图都能够转换成固定大小的特征向量，这就是空间金字塔池化的意义（多尺度特征提取出固定大小的特征向量）。 ROI pooling layer实际上是SPP-NET的一个精简版，SPP-NET对每个proposal使用了不同大小的金字塔映射，而ROI pooling layer只需要下采样到一个7x7的特征图.对于VGG16网络conv5_3有512个特征图，这样所有region proposal对应了一个7*7*512维度的特征向量作为全连接层的输入. 为什么要pooling成7×7的尺度？是为了能够共享权重。Faster RCNN除了用到VGG前几层的卷积之外，最后的全连接层也可以继续利用。当所有的RoIs都被pooling成（512\×7\×7）的feature map后，将它reshape 成一个一维的向量，就可以利用VGG16预训练的权重，初始化前两层全连接. 那么经过何种变换才能从图11中的窗口P变为窗口呢？比较简单的思路就是：注意：只有当Proposal和Ground Truth比较接近时（线性问题），我们才能将其作为训练样本训练我们的线性回归模型，否则会导致训练的回归模型不work（当Proposal跟GT离得较远，就是复杂的非线性问题了，此时用线性回归建模显然不合理）.这个也是G-CNN: an Iterative Grid Based Object Detector多次迭代实现目标准确定位的关键. 线性回归就是给定输入的特征向量X，学习一组参数W，使得经过线性回归后的值跟真实值Y(Ground Truth)非常接近.即.那么Bounding-box中我们的输入以及输出分别是什么呢？如上图中标识： ① rpn_cls：60*40*512-d ⊕ 1*1*512*18 > 60*40*92 逐像素对其9个Anchor box进行二分类 ② rpn_bbox：60*40*512-d ⊕ 1*1*512*36>60*40*9*4 逐像素得到其9个Anchor box四个坐标信息逐像素对Anchors分类标记 ① 去除掉超过1000*600这原图的边界的anchor box ② 如果anchor box与ground truth的IoU值最大，标记为正样本，label=1 ③ 如果anchor box与ground truth的IoU>，标记为正样本，label=1 ④ 如果anchor box与ground truth的IoU<，标记为负样本，label=0 剩下的既不是正样本也不是负样本，不用于最终训练，label=-1 逐像素Bbox回归纠正除了对anchor box进行标记外，另一件事情就是计算anchor box与ground truth之间的偏移量令：ground truth:标定的框也对应一个中心点位置坐标x ,y 和宽高w ,h anchor box: 中心点位置坐标x_a,y_a和宽高w_a,h_a 所以，偏移量： △x=(x -x_a)/w_a △y=(y -y_a)/h_a △w=log(w /w_a) △h=log(h /h_a) 通过ground truth box与预测的anchor box之间的差异来进行学习，从而是RPN网络中的权重能够学习到预测box的能力接着进一步对Anchors进行越界剔除和使用nms非最大值抑制，剔除掉重叠的框；比如，设定IoU为的阈值，即仅保留覆盖率不超过的局部最大分数的box（粗筛）。最后留下大约2000个anchor，然后再取前N个box（比如300个）；这样，进入到下一层ROI Pooling时region proposal大约只有300个。参考文献：

论文检测报告格式详解

主要就是看以下几点：1、总文字复制比，也就是检测出来的重复率。2、全文标明引文，重复都已经被标红。3、全文对照报告单，相似内容来源都准确标出。红色文字表示文字复制部分;黄色文字表示引用部分，根据指示进行修改就可以了。

如果你想顺利进入毕业答辩环节，你必须让你的论文通过学校的查重。在此之前，我们还需要自己检测论文，以免因查重率不合格而被学校退回。然而，许多第一次写论文的学生可能不知道如何检测论文，所以让我们来谈谈论文检测方法是怎样的？paperfree小编给大家讲解。论文检测方法是怎样的？ 1.在检测论文之前，我们应该完成导师布置的论文，然后检测，论文的查重率一定要低于学校标准。 2.论文完成后，我们需要做的是选择论文检测网站。建议在识别论文检测系统时，应考虑更准确性、用户反馈、收费标准、数据比较库等方面。以上几点也是衡量论文检测系统的重要标准。 3.选择论文检测系统后，我们要做的其实很简单，只要进入查重页面，然后根据页面提示信息逐步操作上传论文。上传前记得检测论文格式和排版是否正确。 4.论文上传检测后，我们只需要耐心等待。此时，即使检测页面关闭，也不会产生任何影响。我们只需要登录并下载我们的论文检测报告。 5.查阅论文检测报告时，如果发现论文查重率不符合学校要求，应及时根据检测报告中显示的内容进行必要的修改，以降低论文查重率。修改后，记得再次检测。检测方法与上述内容一致。

想必大家都知道论文完成后还有一个很重要的步骤，就是查重论文。学校和杂志对论文都有明确的查重标准，不同层次的论文重复率有不同的要求。那么，让我们和小编一起看看哪个软件可以检测最近的论文？现在我们市场上有很多论文检测系统，这些论文检测系统可以检测最近的论文，现在我们来详细介绍一下。第一个软件是学校内部查重系统，有很多高校都有自己选定的查重系统，在最终定稿查重时要求学生提交论文查重报告。论文查重检测率也相当准确，覆盖的资源也相当丰富。缺点是他的费用太贵，对于还是学生的同学来说可能负担不起。假如每一次都用内部查重系统查重，整篇论文写下来要查重七八次也是一笔很大的开销。第二个软件是Paperfree，是目前最安全、最快捷、最权威的论文检测软件。它涵盖了毕业论文查重、大学生抄袭率查重职称评定、相关学术成果查重等多种查重功能。他还与大多数机构合作。个人认为这个软件性价比会更高，因为它的收费比较便宜，对于还是学生的同学来说是负担得起的。因此在选择查重软件的时候，也要考虑这个软件的查重准确率是否符合我们的需求，以及他的查重价格。目前，我们市场上所有的论文检测系统都可以检测我们最近的论文。

北的中心城市。那（你们）的男篮很厉害啊，我看你就有点像郭艾伦。”真会说话，大侄子郭艾伦可是辽篮的金牌。马二自感受用，肚子里的火便熄了大半。“在下便是这个店的老板，多有得罪，还望客官海涵，海涵！”老板说着，把服务员又唤了过来：“快煮二斤刚从青岛空运来的大虾，再开一瓶七十年的陈酿，吾要和这位客官畅饮几杯。”酒拿上来了，包装盒上还真有七十年的字样，且用醒目的黑体字标着：“非转基因高粱米酿造”。马二不由联想起所谓元青花瓷器的底部印有“微波炉专用”字样的段子，心中暗笑。虾端上来了。难道这就是传说中的青岛大虾？就是吓得黄晓明和Baby 不敢在当地举办婚礼的青岛大虾？观其形态，就是普通的基围虾嘛！马二吃了一只，觉得味道还不如大连的嘎巴虾。两人边喝边聊，开始聊的不过是美酒大虾的话题，后来火锅店老板就有意无意地探问了马二的婚姻情况。酒过三巡，两人都有点醉意。马二也不自觉进入了穿越的角色，见火锅店老板年纪比自己略小，便以兄长自居，问道：“愚兄有一事不明，不知贤弟为啥待我这般客气？”老板叹了一口气，说道：“兄台有所不知，这和愚弟的家事有关。”“啥？家事？此话怎讲？”“说来话长，吾有一个妹子，已过婚嫁年龄，可一直未有心仪之人。眼瞅着就要滑入剩女之列，家父家母焦急万分，我也为此寝食不安。”“原来如此。”马二想了想，试探地问道，“看贤弟是位帅锅，想来，令妹也是位美女吧！”

iccv目标检测论文解读

原文： Scalable Object Detection using Deep Neural Networks——学术范最近，深度卷积神经网络在许多图像识别基准上取得了最先进的性能，包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络，它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文，但如果不天真地复制每个实例的输出数量，就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型，它预测了一组与类无关的边界框，每个框有一个分数，对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例，并允许在网络的最高级别上进行跨类泛化。目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器，并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中，以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加，这个挑战变得更加困难，因为大多数方法都训练每个类单独的检测器。为了解决这个问题，人们提出了多种方法，从检测器级联到使用分割提出少量的对象假设。关于对象检测的文献非常多，在本节中，我们将重点讨论利用类不可知思想和解决可伸缩性的方法。许多提出的检测方法都是基于基于部件的模型，最近由于有区别学习和精心设计的特征，已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板，这是非常昂贵的。此外，它们在类的数量上是可伸缩的，这对像ImageNet这样的现代数据集来说是一个挑战。为了解决前一个问题，Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题，Song et al.使用了一个低维部件基，在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。另一种不同的工作，与我们的工作更接近，是基于对象可以本地化的想法，而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机，Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分，并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型，分割作为第一层，分割分类作为后续层。尽管它们编码了已证明的感知原理，但我们将表明，有更深入的模型，充分学习可以导致更好的结果。最后，我们利用了DeepLearning的最新进展，最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而，基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能，但由于单个掩模回归的成本，不能扩展到多个类。我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说，我们使用了深度神经网络(DNN)，它输出固定数量的包围盒。此外，它为每个盒子输出一个分数，表示这个盒子包含一个对象的网络信任度。为了形式化上述思想，我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值，可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸，以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的，后面跟着一个sigmoid。我们可以组合边界盒位置sli,i∈{1，…K}为一个线性层。同样，我们可以将所有置信区间ci,i∈{1，…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层在推理时，我们的算法生成kbound盒。在我们的实验中，我们使用ek = 100和K= 200。如果需要，我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此，它们可以通过后续的分类器进行分类，实现目标检测。由于盒子的数量非常少，我们可以提供强大的分类器。在我们的实验中，我们使用另一个dnn进行分类。我们训练一个DNN来预测每个训练图像的边界框及其置信度得分，以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子，对象被标记为boundingboxesgj,j∈{1，…，M}。在实践中，pre- dictionary的数量远远大于groundtruthboxm的数量。因此，我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置，以提高他们的匹配度，最大化他们的信心。与此同时，我们将剩余预测的置信度最小化，这被认为不能很好地定位真实对象。为了达到上述目的，我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1，如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为其中，我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外，我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为最终的损失目标结合了匹配损失和信心损失受式1的约束。α平衡了不同损失条款的贡献。对于每个训练例子，我们通过解决一个最佳的赋值x*的预测到真实的盒子约束执行赋值解决方案。这是二部匹配的一种变体，是一种多项式复杂度匹配。在我们的应用程序中，匹配是非常便宜的——每幅图像中标记的对象的数量少于一打，而且在大多数情况下只有很少的对象被标记。然后，通过反向传播优化网络参数。例如，反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的，但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类，并找到这样的聚类/质心，我们可以使用这些聚类/质心作为每个预测位置的先验。因此，鼓励学习算法为每个预测位置学习一个残差到一个先验。第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配，而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成，就会像之前一样计算目标的置信度。此外，位置预测损失也不变:对于任何一对匹配的(目标，预测)位置，其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配，并假设它促进了预测的多样化。需要注意的是，尽管我们以一种与类无关的方式定义了我们的方法，但我们可以将它应用于预测特定类的对象盒。要做到这一点，我们只需要在类的边框上训练我们的模型。此外，我们可以预测每个类的kbox。不幸的是，这个模型的参数数量会随着类的数量线性增长。此外，在一个典型的设置中，给定类的对象数量相对较少，这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此，我们认为我们的两步过程——首先本地化，然后识别——是一个更好的选择，因为它允许使用少量参数利用同一图像中多个对象类型的数据我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减，128的小批量，以及使用多个相同的网络副本进行并行分布式训练，从而实现更快的收敛。如前所述，我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外，使用非最大抑制对盒进行修剪，Jaccard相似度阈值为。然后，我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络，我们从训练集中生成了大约3000万幅图像，并对训练集中的每幅图像应用以下步骤。最后，样品被打乱。为了训练我们的本地化网络，我们通过对训练集中的每一幅图像应用以下步骤，从训练集中生成了大约3000万幅图像。对于每幅图像，我们生成相同数量的平方样本，使样本总数大约为1000万。对于每幅图像，样本被桶状填充，这样，对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例，都有相同数量的样本，其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中，我们没有探索任何非标准数据生成或正则化选项。在所有的实验中，所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成，其中包含了20种不同的对象类别的边界框。在我们的评估中，我们关注的是2007版VOC，为此发布了一个测试集。我们通过培训VOC 2012展示了结果，其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。我们在一个由1000万作物组成的数据集上训练分类器，该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。在第一轮中，定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络，我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后，保留评分最高的前10个检测项，并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估，并用于计算精确查全曲线。首先，我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量，正如Pascal检测标准所定义的那样，与生成的包围框的数量相对比。在图1中，我们展示了使用VOC2012进行训练所获得的结果。此外，我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的，当使用10个边界框的预算时，我们可以用第一个模型本地化的对象，用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能，例如对象度算法达到42%[1]。此外，这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象，但当使用更高分辨率的图像作物时，我们获得了额外的提升。进一步，我们用21-way分类器对生成的包围盒进行分类，如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是，与先进水平相当。注意，我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是，可视化检测是通过仅使用最大中心方形图像裁剪，即使用全图像获得的。然而，我们设法获得了相对较小的对象，例如第二行和第二列的船，以及第三行和第三列的羊。在本工作中，我们提出了一种新的方法来定位图像中的对象，该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下，对1000个盒子进行非max-suppression，使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则，并学习在未见图像中预测这些位置。我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果，在这两个基准上，所提出的方法具有竞争力。此外，该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明，deepmultibox的方法是可扩展的，甚至可以在两个数据集之间泛化，就能够预测感兴趣的定位，甚至对于它没有训练的类别。此外，它能够捕获同一类物体的多种情况，这是旨在更好地理解图像的算法的一个重要特征。在未来，我们希望能够将定位和识别路径折叠到一个单一的网络中，这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下，双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估，每个评估的速度大约为1个CPU-sec(现代机器)。重要的是，这个数字并不与要识别的类的数量成线性关系，这使得所提出的方法与类似dpm的方法非常有竞争力。

ICCV论文是计算机视觉领域最高级别的会议论文。

计算机视觉是使用计算机及相关设备对生物视觉的一种模拟。它的主要任务就是通过对采集的图片或视频进行处理以获得相应场景的三维信息，就像人类和许多其他类生物每天所做的那样。

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

CVPR录用标准

CVPR有着较为严苛的录用标准，会议整体的录取率通常不超过30%，而口头报告的论文比例更是不高于5%。而会议的组织方是一个循环的志愿群体，通常在某次会议召开的三年之前通过遴选产生。CVPR的审稿一般是双盲的，也就是说会议的审稿与投稿方均不知道对方的信息。

通常某一篇论文需要由三位审稿者进行审读。最后再由会议的领域主席（area chair)决定论文是否可被接收。

论文名称：Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间：2014年论文地址：针对问题：从Alexnet提出后，作者等人思考如何利用卷积网络来完成检测任务，即输入一张图，实现图上目标的定位（目标在哪）和分类（目标是什么）两个目标，并最终完成了RCNN网络模型。创新点： RCNN提出时，检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢，作者采用的是Selective Search候选区域提取算法，来获得当前输入图上可能包含目标的不同图像块，再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。参考博客：。论文题目：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间：2014年论文地址：针对问题：该论文讨论了，CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后，在网络后端组织两组卷积或全连接层，一组用于实现定位，输出当前图像上目标的最小外接矩形框坐标，一组用于分类，输出当前图像上目标的类别信息。也是以此为起点，检测网络出现基础主干网络(backbone)+分类头或回归头（定位头）的网络设计模式雏形。创新点：在这篇论文中还有两个比较有意思的点，一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的，而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制，那用1x1卷积来替换FC层，是否可行呢？作者在测试时通过将全连接层替换为1x1卷积核证明是可行的；二是提出了offset max-pooling，也就是对池化层输入特征不能整除的情况，通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练，然后切换分类头为回归头，再训练回归头的参数，最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。参考博客：论文题目：Scalable Object Detection using Deep Neural Networks 提出时间：2014年论文地址：针对问题：既然CNN网络提取的特征可以直接用于检测任务（定位+分类），作者就尝试将目标框（可能包含目标的最小外包矩形框）提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。创新点：本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心，（800个anchor box）然后学习预测不考虑目标类别的二分类网络，背景or前景。用到了多尺度下的检测。参考博客：论文题目：DeepBox: Learning Objectness with Convolutional Networks 提出时间：2015年ICCV 论文地址：主要针对的问题：本文完成的工作与第三篇类似，都是对目标框提取算法的优化方案，区别是本文首先采用自底而上的方案来提取图像上的疑似目标框，然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序；而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点：本文作者想通过CNN学习输入图像的特征，从而实现对输入网络目标框是否为真实目标的情况进行计算，量化每个输入框的包含目标的可能性值。参考博客：论文题目：AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间：2015年ICCV 论文地址：主要针对的问题：对检测网络的实现方案进行思考，之前的执行策略是，先确定输入图像中可能包含目标位置的矩形框，再对每个矩形框进行分类和回归从而确定目标的准确位置，参考RCNN。那么能否直接利用回归的思路从图像的四个角点，逐渐得到目标的最小外接矩形框和类别呢？创新点：通过从图像的四个角点，逐步迭代的方式，每次计算一个缩小的方向，并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。参考博客：论文题目：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间：2014年论文地址：针对问题：如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络，在处理过程中就造成了图像块信息的损失。在实际的场景中，输入网络的目标尺寸很难统一，而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点：作者提出的SPPnet中，通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸，在训练的时候，池化的操作还是通过滑动窗口完成的，池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。参考博客：论文题目：Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间：2015年论文地址：针对问题：既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位，本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点：作者通过对输入网络的region进行一定的处理（通过数据增强，使得网络利用目标周围的上下文信息得到更精准的目标框）来增加网络对目标回归框的精度。具体的处理方式包括：扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置，使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性，从而提高了回归框的精度。参考博客：论文题目：Fast-RCNN 提出时间：2015年论文地址：针对问题： RCNN中的CNN每输入一个图像块就要执行一次前向计算，这显然是非常耗时的，那么如何优化这部分呢？创新点：作者参考了SPPNet（第六篇论文），在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸，从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图，再将原图上用Selective Search算法得到的目标框映射到特征图上，避免了特征的重复提取。参考博客：论文题目：DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间：2015年论文地址：主要针对的问题：本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文，作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。创新点：作者在不同的激活层上以滑动窗口的方式生成了假设，并表明最终的卷积层可以以较高的查全率找到感兴趣的对象，但是由于特征图的粗糙性，定位性很差。相反，网络的第一层可以更好地定位感兴趣的对象，但召回率降低。论文题目：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间：2015年NIPS 论文地址：主要针对的问题：由multibox（第三篇）和DeepBox（第四篇）等论文，我们知道，用CNN可以生成目标待检测框，并判定当前框为目标的概率，那能否将该模型整合到目标检测的模型中，从而实现真正输入端为图像，输出为最终检测结果的，全部依赖CNN完成的检测系统呢？创新点：将当前输入图目标框提取整合到了检测网络中，依赖一个小的目标框提取网络RPN来替代Selective Search算法，从而实现真正的端到端检测算法。参考博客：

万方数据论文检测流程详解

paperbye论文查重软件-论文检测、智能降重。

问题一：万方论文查重怎么查万方论文查重怎么查用的是知网，抄袭之后最后修改一下，比如改下表达方式，知网系统计算标准详细说明： 1．看了一下这个系统的介绍，有个疑问，这套系统对于文字复制鉴别还是不错的，但对于其他方面的内容呢，比如数据，图表，能检出来吗？检不出来的话不还是没什么用吗？学术不端的各种行为中，文字复制是最为普遍和严重的，目前本检测系统对文字复制的检测已经达到相当高的水平，对于图表、公式、数据的抄袭和篡改等行为的检测，目前正在研发当中，且取得了比较大的进展，欢迎各位继续关注本检测系统的进展并多提批评性及建设性意见和建议。 2．按照这个系统39%以下的都是显示黄色,那么是否意味着在可容忍的限度内呢?最近看到对上海大学某教师的国家社科基金课题被撤消的消息,原因是其发表的两篇论文有抄袭行为,分别占到25%和30%. 请明示超过多少算是警戒线？百分比只是描述检测文献中重合文字所占的比例大小程度，并不是指该文献的抄袭严重程度。只能这么说，百分比越大，重合字数越多，存在抄袭的可能性越大。是否属于抄袭及抄袭的严重程度需由专家审查后决定。希望对你有帮助。问题二：万方数据库如何免费查重??? 不可能的，去淘宝上买吧，很便宜问题三：中国知网和万方数据库怎么查重？要给钱吗？数据圈论坛上有专门的帖子帮助大家下载知网论文，你可以去哪里求助。你只要留下求助的论文名称和作者姓名。每天可以帮助下载十篇文章。论文是直接发送到你的邮箱里，还是很方便的问题四：有人用过万方数据库查重吗万方检测比较便宜，出结果快，适合专、本、硕论文前期修改使用，结果不太准确。在文天下论文检测网有万方查重问题五：万方论文查重怎么查？万方检测入口万方检测结果很低的，很多都查不出来。哎，很多大学会对学生递交的毕业论文进行查重，一般会先用文思慧达查重系统进行初检，再通过专家的审核进行复审。检测合格的论文就可以进入答辩了，而对于那些无法通过检测的论文，一般会给予修改的机会，然后再进行答辩，如果答辩都无法过，那么就会要求推迟毕业。如果一旦论文过不了关，可能就会影响很大，有些原来在外地实习的学生还不得不赶回学校进行修改，非常麻烦。为了使自己的论文能够一次性过关，老师建议广大学生一定要注意提前检测，这样就可以定心了。对于很多大学生、研究生而言，毕业前可能花在找工作上的时间比较多，但是写论文的时间就很少，很多学生为了图方便，往往在网上找点资料拼拼凑凑，这样就可能导致在文思慧达论文检测系统时根本就过不了关。而论文过不了，当然也就会影响答辩的时间，甚至可能导致无法顺利毕业。为了防止自己的论文在检测时过不了关，还是需要提前做做检测的，一般只需要在网上进行检测。现在网上文思慧达检测系统系统五花八门，大家可以选择那些专业的检测网站进行论文检测。这些网站一般拥有非常庞大的数据库，能够给用户提供非常有效的检测报告。当然，这种检测都是需要花钱的，价格也是高低不同。免费的检测网站也有，但那种一般检测得不够全面。出现抄袭问题的原因其实是很多的，有些学生就是恶意抄袭，就是想把别人的劳动成果占为已有；而有些其实是一种不经意引用，并非故意。这些，在论文查重系统中，可能都会被标红。要想使自己在学校检测时顺利通过，很多学生都会提前通过网络上的相关文思慧达论文查重检测系统对自己的论文进行检查，以提前发现问题，并提前修改。为了确保自己能够全面修改，建议大家还是找需要花钱的检测平台，而且最好能够多找几家检测一下，这样才可能确保自己的论文能够顺利通过论文检测关。现在很多高校与文思慧达检测系统平台达成合作关系，所以很多学生为了能够通过学校的检测，会提前在这一平台上检测自己的论文，当然，检测成本肯定要比其它的网站便宜一些了。当然，使用文思慧达论文查重系统只是检测学生论文的一个手段，为了公平公正，还需要人工操作，由专家把关，特别是对优秀论文，会进行人工检测，而普通论文，则还会通过抽检的方式进行检测。所以，采用现代与传统结合的方式，是现在很多大专院校普遍采用的方法。问题六：万方论文检测万方毕业论文查重检测万方数据库相似度查重怎么样一般用知网的问题七：学位论文万方数据库查重收费各个学校不一样，全文重复率在30%一下（而有的学校，本科是20%）。每章重复率应该没有要求，这个每个学校会出细则的，并且学校也出给出他们查重复率的地方――基本都是中国知网。具体打电话问老师，每界每个学校要求都不一样相关查重系统名词的具体作用：查重率的具体概念就是抄袭率，引用率，要用专业软件来测试你的文章与别人论文的相似度，杜绝抄袭。基本就这意思。一个是自写率就是自己写的一个是复写率就是你抄袭的还有一个引用率就是那些被画上引用符号的是合理的引用别人的资料修改重复率或抄袭率论文的经验： CNKI是连续的字数相同不能超过13个字，万方是连续的字数相同不能超过15个字。否则就会标注出来，算进重复率。我们学校规定是CNKI检测重复率不能超过30%.两种数据库检测重复率会有结果上的误差，一般CNKI会更严格一点，先在用万方检测一下，然后对照重复段落，句子反复修改一下，最后用CNKI检测一下，就放心了。现在是学生写作毕业论文的关键时期，许多学生在论文写作中要利用一些文献资料，这样就涉及到一个问题，如何应用别人的文献资料，如何形成一个良好的学术规范，避免抄袭。这在现在是一个非常迫切的问题，但是我们许多同学缺乏严格的训练，也不知道什么情况下是抄袭，什么情况下是引用别人的文章。在这里我想对这个问题作出一个简单的讨论。这仅仅只能算是个抛砖引玉而已，目的是想和大家一起讨论这个话题。什么是抄袭行为？简单地说就是使用了别人的文字或观点而不注明就是抄袭。“照抄别人的字句而没有注明出处且用引号表示是别人的话，都构成抄袭。美国现代语言联合会《论文作者手册》对剽窃（或抄袭）的定义是：‘剽窃是指在你的写作中使用他人的观点或表述而没有恰当地注明出处。……这包括逐字复述、复制他人的写作，或使用不属于你自己的观点而没有给出恰当的引用。’可见，对论文而言，剽窃有两种：一种是剽窃观点，用了他人的观点而不注明，让人误以为是你自己的观点；一种是剽窃文字，照抄别人的文字表述而没有注明出处且用引号，让人误以为是你自己的表述。当然，由于论文注重观点的原创性，前者要比后者严重。至于普及性的文章却有所不同，因为并不注重观点的原创性，所以并不要求对来自别人的观点一一注明，因此只看重文字表述是否剽窃。” 那么如何使用别人的文献资料呢？美国哈佛大学在其相关的学生手册中指出，“如果你的句子与原始资料在观点和句子结构上都非常相似，并且结论与引语相近而非用自己的话重述，即使你注明出处，这也是抄袭。你不能仅仅简单改变原始资料中的几个词语或者对其进行摘要总结，你必须用你自己的语言和句子结构彻底地重塑你的总结，要不就直接引用。”（引自哈佛大学的相关规定，该原文是我1年前看到的，现在找不到出处了）。可见，对别人的内容的使用必须进行全面的重写，否则就有抄袭的嫌疑。但这里要避免胡乱拼凑和揉合。总之来说，我们必须尊重别人的智力成果，在文章中反映出哪些是你做的哪些是别人做的。当然现在做到这些还很难，但我想我们至少要有这个意识，因为在剽窃的概念里，除过强调未注明这点外，还强调不是成心的。我们许多人写东西，正是因为不知道什么是抄袭，如何避免抄袭才犯了错误，所以明确什么是抄袭非常重要。从现实来看，我们的同学要写一篇10000字左右的没有任何抄袭嫌疑的毕业论文是很困难的，但是我们至少应该从主观上尽可能的避免出现严重抄袭行为，逐步形成好的习惯。在国内就是知网/维普/万方这三大系统，这里面的资源是不断更新的，每一年毕业生的论文除有保密要求外的基本上都是收......>> 问题八：万方论文查重怎么查？万方检测入口直接进万方的官网注册使用就可以啦。但是万方的检测结果真心不咋的，你去试下就知道了。详细的可以去文思慧达查重系统试下。问题九：用万方数据怎么进行论文查重率检测又临近毕业期，写论文是每个毕业生最重要且最紧急的事情，据了解，今年接近有一百所高校引入论文检测防抄袭系统，为此，各学子在提交论文到学校答辩前就需要提前进行检测，以免由于论文抄袭率过高廷迟毕业甚至毕不了业，但有绝大部分毕业生不清楚怎么检测，下面我以万方论文检测为例，介绍一下如何使用万方的检测系统进行论文检测。工具/原料电脑毕业论文百度方法/步骤 1 首先，百度搜索打开天天论文检测查重网； 2 把需要检测的论文内容复制到【论文内容】里面的文本框里面，然后点击下一步； 3 然后输入订单号，订单号的查找办法是：我的淘宝->已买到的宝贝： 4 检测报告下载，一般10秒中左右可下载报告； 5 检测报告样本，至此，论文的检测就已经完成，各位可根据论文的检测结果对比学校的要求，满足则提交，不满足则根据报告修改到满足才提交答辩； END 注意事项不同的学校可能会使用不一样的检测系统，各学子可以根据各自学校使用的检测系统进行提前检测；另外需要注意的是有些学校只测正文，有些测正文和参考文献，有些甚至连声明、致谢都测。学校测的内容一旦有差异，结果就有少许差异（总抄袭率/检测文字总数）。就看学校检测论文哪些部分！但是如果你提交检测的论文和提交给学校一样，没有任何改动，那么结果是一样的。问题十：知网查重和万方查重 50分每年的三、四月份，高校都会检查研究生论文的重复率，防止学术抄袭。而超过一定重复率的童鞋就会被惩罚，最严重的就会被取消答辩资格，延迟答辩时间。所以，事先大家都想查重，以便心里有数。现在，用来查重的数据库主要分为知网和万方两家，虽然两家数据库有重合之处，但区别仍然很大。因此，大家面临着选择，查重到底选择哪一家呢？哪一家好呢？哪家查重好，这个“好”的标准是什么呢，买服务就像买东西，当然以“物优价廉”为好的标准。接下来，我将分析这两家数据库查重的利弊，最后得出好或者坏的结论。知网查重利：数据库全面，查重准确率极高。因为学校查重便是通过知网进行的。弊：价格高，平时查一篇论文要花费一百多元，行情好时就涨到二、三百元。万方查重利：价格低，平时查一篇论文只需一元，贵的时候也只要二、三块钱。弊：数据库不全，查重准确率极低，详见我的这篇文章《万方查重不靠谱》。说到万方查重，每年部分高校都会向写论文的毕业生发放一些万方的充值卡，如果你有，或者你的童鞋有，可以借来检测自己论文的重复率，入口：论文相似性检测??。综上所述，知网查重合万方查重各有利弊，不分好坏。最后提出我的建议，如果你的论文引用别人的东西比较多的话，建议自己修改之后学校查重之前去知网检测下。如果得到的重复率超出学校规定，你可以继续修改，直到达标为止。而如果不检测的话，一旦重复率超标，后果很严重。像我们学校，结果是推迟半年答辩。万方当然不是一无是处，可用于平时修改论文。请采纳。

如何进行论文查重，首先选择一个靠谱的论文查重系统，论文初稿查重我们可以用PaperPP、PaperGood、PaperQuery等等，论文终稿查重，用和学校一样的论文查重系统就可以了，如果没有指定查重系统，优先考虑知网，然后再是维普、万方。选好论文查重系统后，然后就是提交论文进行查重了，大部分论文查重系统都支持word和pdf两种格式，不过word格式更好，查重系统识别起来会更容易一些。提交之后等待查重结果出来就可以了。

一般时间在24小时左右，结果隔天就能出来。学信网查重系统是万方论文检测系统，可以免费查重一次。论文查重针对不同系统检测结果不一致，建议多选择几个查重系统，保证更加准确。查重步骤，第一步：进入学信网万方数据文献相似性检测服务系统。第二步：登陆学信网账号，应届毕业生免费查重检测一次。第三步：按照页面检测步骤开始检测：① 选择检测库→②上传文档→③确认→④完成→⑤查看报告。第四步：点击导航【查看报告】。

目标检测算法ssd论文解读

作为计算机视觉三大任务（图像分类、目标检测、图像分割）之一，目标检测任务在于从图像中定位并分类感兴趣的物体。传统视觉方案涉及霍夫变换、滑窗、特征提取、边界检测、模板匹配、哈尔特征、DPM、BoW、传统机器学习（如随机森林、AdaBoost）等技巧或方法。在卷积神经网络的加持下，目标检测任务在近些年里有了长足的发展。其应用十分广泛，比如在自动驾驶领域，目标检测用于无人车检测其他车辆、行人或者交通标志牌等物体。

目标检测的常用框架可以分为两类，一类是 two-stage/two-shot 的方法，其特点是将兴趣区域检测和分类分开进行，比较有代表性的是R-CNN，Fast R-CNN，Faster R-CNN；另一类是 one-stage/one-shot 的方法，用一个网络同时进行兴趣区域检测和分类，以YOLO（v1,v2,v3）和SSD为代表。

Two-stage的方式面世比较早，由于需要将兴趣区域检测和分类分开进行，虽然精度比较高，但实时性比较差，不适合自动驾驶无人车辆感知等应用场景。因而此次我们主要介绍一下SSD和YOLO系列框架。

SSD与2016年由W. Liu et al.在 SSD: Single Shot MultiBox Detector 一文中提出。虽然比同年提出的YOLO（v1）稍晚，但是运行速度更快，同时更加精确。

SSD的框架在一个基础CNN网络（作者使用VGG-16，但是也可以换成其他网络）之上，添加了一些额外的结构，从而使网络具有以下特性：

用多尺度特征图进行检测作者在VGG-16后面添加了一些特征层，这些层的尺寸逐渐减小，允许我们在不同的尺度下进行预测。越是深层小的特征图，用来预测越大的物体。

用卷积网络进行预测不同于YOLO的全连接层，对每个用于预测的通道特征图，SSD的分类器全都使用了卷积进行预测，其中是每个单元放置的先验框的数量，是预测的类别数。

设置先验框对于每一个特征图上的单元格，我们都放置一系列先验框。随后对每一个特征图上的单元格对应的每一个先验框，我们预测先验框的维偏移量和每一类的置信度。例如，对于一个的特征图，若每一个特征图对应个先验框，同时需要预测的类别有类，那输出的大小为。（具体体现在训练过程中）其中，若用表示先验框的中心位置和宽高，表示预测框的中心位置和宽高，则实际预测的维偏移量是分别是：

下图是SSD的一个框架，首先是一个VGG-16卷积前5层，随后级联了一系列卷积层，其中有6层分别通过了卷积（或者最后一层的平均池化）用于预测，得到了一个的输出，随后通过极大值抑制（NMS）获得最终的结果。

图中网络用于检测的特征图有个，大小依次为，，，，，；这些特征图每个单元所对应的预置先验框分别有 , , , , , 个，所以网络共预测了个边界框，（进行极大值抑制前）输出的维度为。

未完待续

参考： chenxp2311的CSDN博客：论文阅读：SSD: Single Shot MultiBox Detector 小小将的知乎专栏：目标检测|SSD原理与实现 littleYii的CSDN博客：目标检测论文阅读：YOLOv1-YOLOv3（一）

作者的其他相关文章：图像分割：全卷积神经网络（FCN）详解 PointNet：基于深度学习的3D点云分类和分割模型详解基于视觉的机器人室内定位

索引序列
目标检测rcnn论文详解
论文检测报告格式详解
iccv目标检测论文解读
万方数据论文检测流程详解
目标检测算法ssd论文解读
返回顶部

目标检测rcnn论文详解