基于深度学习下的物体检测论文

3个回答默认排序

默认排序

按时间排序

打篮球的猫咪

已采纳

第一类： FCN（完全卷积网络）简介;FCN是一种端到端的深度学习图像分割算法，让网络做像素的预测，直接得到label map 传统cnn缺点：存储开销大，效率低下，像素块的大小限制了感受区域的大小 FCN改变了什么：经典的cnn在卷积层之后时使用了全连接层得到固定长度的整个输入图像的概率向量，适合用于图像的分类和回归任务，经过 softmax后可以获得类别概率信息，但是这个概率信息是1维的，只能表示出整个图像的类别，所以这种全连接方法不适用于图像分割。FCN将Cnn的全连接层换成卷积层（1000个节点的全连接层换成1000个1*1的卷积核的卷积层），这样可以得到2维的fp,再通过softmax可以得到每个像素点的类别信息，从而解决分割问题。 FCN结构:FCN可以接受任何尺寸的输入图像，在最后得到的fp后，通过反卷积层进行上采样，使他恢复到输入图像的尺寸，从而可以对每一个像素都产生预测,保留原始图像当中的空间信息。为啥cnn不能随便尺寸输入：因为cnn的全连接层会得到一个拉直的向量，向量中比方说有n*n个元素，这n*n个元素每个元素当作一个结点与下一层全连接，如果下一层比方说节点数是4096，权值数就是4096*n*n。神经网络结构确定，那么权值数就要确定了，上一层的输出就不能变了，然后倒着往前推，每一层输出都不能变，因此输入就必须得固定。 skip state:由于最后这个特征图太小，容易丢失很多细节，增加一个skip state这样的一个结构，最后一层的预测（局部信息）和更浅层（全局信息）预测结合起来，这样就是既局部还全局。 FCN缺点：实施推理速度不够快，对各个像素进行分类，没有考虑像素与像素之间的一个关系，不容易移植到三维图像当中。第二类：基于CNN和完全连接的CRF的语义分割算法 FCN可能忽略了有用的场景级语义上下文，为了集成更多上下文信息 cnn+crf>cnn+softmax fcn得到粗分值图，经过双线性插值上采样恢复分辨率，然后再将它传递给全连接的crf层细化分割结果。最终实验表明：有更高的准确率来定位边界。第三类：编码器加解码器结构（unet,vnet）分为一般的分割跟医学图像的分割。一个是使用从VGG 16层网络采用的卷积层的编码器，另一个是将特征向量作为输入并生成像素级类概率图的反卷积网络。 segnet SegNet的主要新颖之处在于解码器对其较低分辨率的输入特征图进行升采样。具体来说，它使用在相应编码器的最大池化步骤中计算出的合并索引来执行非线性上采样，从而消除了学习上采样的需求.与其他竞争性体系结构相比，SegNet的可训练参数数量也明显更少并且能够提升边缘刻画度。 (ex:SDN,Linknet,w-net) segnet的encoder过程中卷积起到提取特征的作用，使用的是same卷积，卷积后不改变图片的大小。同时在decoder过程中，同样是采用了same卷积，作用是upsample之后丰富变大图片的信息 u-net （医学影像分割的论文几乎都是用u-net来改良的）在医学图像分割上,在编码器部分，类似于FCN，下采样采用conv3*3，全卷积神经网络。上采样 conv2*2 ，插值法（不使用转置卷积，为了让特征图保持着均匀的色差）最后有个1*1（将特征通道数降至特定的数量 ) 为了降低在压缩路径当中造成的图像细节损失，作者会将压缩路径当中的fp叠加到拓张路径的相同尺寸的fp上，再进行conv,upsample.以此整合更多更完整的图像信息。 v-net 基于FCN用于3D医学图像分析的图像分割网络。最后输出的是三维的单通道数据，代表每一个像素是前景还是背景的概率，如果概率大于是前景，概率小于是背景。第四类：多尺度分析跟金字塔网络尺度：分辨率多尺度：所训练出来的成功的模型，他在换到另一个尺度下很有可能失效提出了一个pspnet,实现利用上下文信息的能力来进行场景解析，又到了老生常谈的问题，FCN不能很好的利用全局信息（比如说，FCN非认为右边是车，但是左边就有船坞，他不能利用这种线索来进行一个判断） DM-Net (Dynamic Multi-scale Filters Network) Context contrasted network and gated multi- scale aggregation (CCN) Adaptive Pyramid Context Network (APC-Net) Multi-scale context intertwining (MSCI) 第五类：实例分割当中基于r-cnn的模型 r-cnn mask r-cnn Mask RCNN使用ResNet+FPN（特征金字塔网络）进行特征提取。顶层特征（最后一层特征图），感受野最大，特征信息最丰富，但对小物体的检测效果并不好。因此，将多个阶段的特征图融合在一起（FPN），这样既有了高层的语义特征，也有了底层的轮廓特征。 RoI Align替代RoI Pooling RoI Pooling有什么问题？经过两次量化，使特征图对应位置不准。增加Mask分支（语义分割）Mask分支只做语义分割，类型预测的任务交给另一个分支。

339 评论 1小时前发布

怀念橡皮筋

论文名称：Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间：2014年论文地址：针对问题：从Alexnet提出后，作者等人思考如何利用卷积网络来完成检测任务，即输入一张图，实现图上目标的定位（目标在哪）和分类（目标是什么）两个目标，并最终完成了RCNN网络模型。创新点： RCNN提出时，检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢，作者采用的是Selective Search候选区域提取算法，来获得当前输入图上可能包含目标的不同图像块，再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。参考博客：。论文题目：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间：2014年论文地址：针对问题：该论文讨论了，CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后，在网络后端组织两组卷积或全连接层，一组用于实现定位，输出当前图像上目标的最小外接矩形框坐标，一组用于分类，输出当前图像上目标的类别信息。也是以此为起点，检测网络出现基础主干网络(backbone)+分类头或回归头（定位头）的网络设计模式雏形。创新点：在这篇论文中还有两个比较有意思的点，一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的，而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制，那用1x1卷积来替换FC层，是否可行呢？作者在测试时通过将全连接层替换为1x1卷积核证明是可行的；二是提出了offset max-pooling，也就是对池化层输入特征不能整除的情况，通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练，然后切换分类头为回归头，再训练回归头的参数，最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。参考博客：论文题目：Scalable Object Detection using Deep Neural Networks 提出时间：2014年论文地址：针对问题：既然CNN网络提取的特征可以直接用于检测任务（定位+分类），作者就尝试将目标框（可能包含目标的最小外包矩形框）提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。创新点：本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心，（800个anchor box）然后学习预测不考虑目标类别的二分类网络，背景or前景。用到了多尺度下的检测。参考博客：论文题目：DeepBox: Learning Objectness with Convolutional Networks 提出时间：2015年ICCV 论文地址：主要针对的问题：本文完成的工作与第三篇类似，都是对目标框提取算法的优化方案，区别是本文首先采用自底而上的方案来提取图像上的疑似目标框，然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序；而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点：本文作者想通过CNN学习输入图像的特征，从而实现对输入网络目标框是否为真实目标的情况进行计算，量化每个输入框的包含目标的可能性值。参考博客：论文题目：AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间：2015年ICCV 论文地址：主要针对的问题：对检测网络的实现方案进行思考，之前的执行策略是，先确定输入图像中可能包含目标位置的矩形框，再对每个矩形框进行分类和回归从而确定目标的准确位置，参考RCNN。那么能否直接利用回归的思路从图像的四个角点，逐渐得到目标的最小外接矩形框和类别呢？创新点：通过从图像的四个角点，逐步迭代的方式，每次计算一个缩小的方向，并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。参考博客：论文题目：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间：2014年论文地址：针对问题：如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络，在处理过程中就造成了图像块信息的损失。在实际的场景中，输入网络的目标尺寸很难统一，而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点：作者提出的SPPnet中，通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸，在训练的时候，池化的操作还是通过滑动窗口完成的，池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。参考博客：论文题目：Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间：2015年论文地址：针对问题：既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位，本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点：作者通过对输入网络的region进行一定的处理（通过数据增强，使得网络利用目标周围的上下文信息得到更精准的目标框）来增加网络对目标回归框的精度。具体的处理方式包括：扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置，使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性，从而提高了回归框的精度。参考博客：论文题目：Fast-RCNN 提出时间：2015年论文地址：针对问题： RCNN中的CNN每输入一个图像块就要执行一次前向计算，这显然是非常耗时的，那么如何优化这部分呢？创新点：作者参考了SPPNet（第六篇论文），在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸，从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图，再将原图上用Selective Search算法得到的目标框映射到特征图上，避免了特征的重复提取。参考博客：论文题目：DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间：2015年论文地址：主要针对的问题：本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文，作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。创新点：作者在不同的激活层上以滑动窗口的方式生成了假设，并表明最终的卷积层可以以较高的查全率找到感兴趣的对象，但是由于特征图的粗糙性，定位性很差。相反，网络的第一层可以更好地定位感兴趣的对象，但召回率降低。论文题目：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间：2015年NIPS 论文地址：主要针对的问题：由multibox（第三篇）和DeepBox（第四篇）等论文，我们知道，用CNN可以生成目标待检测框，并判定当前框为目标的概率，那能否将该模型整合到目标检测的模型中，从而实现真正输入端为图像，输出为最终检测结果的，全部依赖CNN完成的检测系统呢？创新点：将当前输入图目标框提取整合到了检测网络中，依赖一个小的目标框提取网络RPN来替代Selective Search算法，从而实现真正的端到端检测算法。参考博客：

85 评论 9小时前发布

活力的维维

本文适合刚入门物体检测的人群学习，不涉及公式推理。相比于图像分类，图像中物体检测是计算机视觉中一个更加复杂的问题，因为图像分类只需要判断出图像属于哪一类就行，而在物体检测中，图像里可能有多个物体，我们需要对所有物体进行种类判别和位置确定，所以比图像分类更具有挑战性，应用于物体检测的深度学习模型也会更加复杂。本文将会着重介绍几种基于深度学习的物体检测方法。待识别的物体有20类： person bird, cat, cow, dog, horse, sheep aeroplane, bicycle, boat, bus, car, motorbike, train bottle, chair, dining table, potted plant, sofa, tv/monitor Detection Label (Ground truth)格式：提交结果文件格式：有YOLO、SSD、rcnn、fast rcnn及faster rcnn等注：后边部分内容会对算法进行详细介绍针对单个物体实例而言，通常由于图像采集过程中光照条件、拍摄视角、距离的不同，物体自身的非刚体形变以及其他物体的部分遮挡使得物体实例的表观特征产生很大的变化，给视觉识别算法带来了极大的困难。属于同一类的物体表观特征差别比较大，其原因有前面提到的各种实例层次的变化，但这里更强调的是类内不同实例的差别，例如图 3(a)所示，同样是椅子，外观却是千差万别；其次是类间模糊性，即不同类的物体实例具有一定的相似性，如图 3(b)所示，左边的是一只狼，右边的是一只哈士奇，但我们从外观上却很难分开二者；再次是背景的干扰，在实际场景下，物体不可能出现在一个非常干净的背景下，往往相反，背景可能是非常复杂的、对我们感兴趣的物体存在干扰的，这使得识别问题的难度大大加大。困难与挑战与图像的视觉语义相关，这个层次的困难往往非常难以处理，特别是对现在的计算机视觉理论水平而言。一个典型的问题称为多重稳定性。如图所示，图 3(c)左边既可以看成是两个面对面的人，也可以看成是一个燃烧的蜡烛；右边则同时可以解释为兔子或者小鸭。同样的图像，不同的解释，这既与人的观察视角、关注点等物理条件有关，也与人的性格、经历等有关，而这恰恰是视觉识别系统难以很好处理的部分。 bounding box:矩形框 SPP：Spatial Pyramid Pooling SVM:支持向量机 RPN：Region Proposal Network区域检测模块主要处理图像检测区域窗口的问题。根据获得区域待检测窗口方法的不同，物体检测方法大致可分为稠密检测窗提取（蛮力搜索）和稀疏检测窗两类方法。稠密检测窗提取方法，比如滑动窗法，相对比较简单，它是通过使用训练好的模板在输入图像的多个尺度上图像金字塔上进行滑动扫描，通过确定最大响应位置找到目标物体的矩形窗口。稀疏检测窗提取方法，则一般利用某些先验或其他图像任务的结果，选择最有可能成为物体的检测窗口，比如选择性搜方法，对图像分割的结果进行利用，通过区域融合生产目标检测窗。（算法具体内容自行了解，比如边缘盒算法，选择性算法）这是最重要和最关键的步骤，传统的特征提取方法，比如HOG、SIFT特征，通过计算图像局部区域的梯度特征，得到图像边缘或角点特征。相比现在深度学习的提取特征方法，这些方法都是根据图像的某些性质通过人工设计相应的特征。缺点很明显，第一人工设计很麻烦，第二很具有局限性，特征提取不够完整，而深度卷积神经网络就可以客服这些不足。分类器模块是物体图像检测与分类系统的结果输出，用于评价整个检测系统的性能。在模式识别和机器学习领域中，常用的分类器包括：逻辑回归、softmax、SVM、ada-boost等。在深度学习模型中一般采用SVM和softmax。暂时略既然传统的物体检测方法局限性很大，此时随着深度学习的发展，基于深度学习的物体检测算法R-CNN横空出世了。 Fast-RCNN主要贡献在于对R-CNN进行加速，只有速度够快，才能做到实时处理。那么Fast-RCNN是改进了R-CNN哪些地方提高了处理速度呢？ SPP：Spatial Pyramid Pooling（空间金字塔池化）它有两个特点: 1.结合空间金字塔方法实现CNNs的多尺度输入。一般CNN后接全连接层或者分类器，他们都需要固定的输入尺寸，因此不得不对输入数据进行crop或者warp，这些预处理会造成数据的丢失或几何的失真。SPP Net的第一个贡献就是将金字塔思想加入到CNN，实现了数据的多尺度输入。在卷积层和全连接层之间加入了SPP layer。此时网络的输入可以是任意尺度的，在SPP layer中每一个pooling的filter会根据输入调整大小，而SPP的输出尺度始终是固定的。 2.只对原图提取一次卷积特征在R-CNN中，每个候选框先resize到统一大小，然后分别作为CNN的输入，这样是很低效的。所以SPP Net根据这个缺点做了优化：只对原图进行一次卷积得到整张图的feature map，然后找到每个候选框zaifeature map上的映射patch，将此patch作为每个候选框的卷积特征输入到SPP layer和之后的层。节省了大量的计算时间。 Fast-RCNN正是通过融合了SPP的设计（这一层称之为ROI Pooling），有了以上这两个优点，使得Fast-RCNN比R-CNN快多了。原来的方法：许多候选框（比如两千个）-->CNN（两千次卷积）-->得到每个候选框的特征（不同尺度特征图不行）-->分类+回归现在的方法：一张完整图片-->CNN（一次卷积）-->得到每张候选框的特征（可以不同尺度特征图不行，因为这里加了一层SSP net 称之为ROI Pooling）-->分类+回归其还有个贡献是多任务Loss层：将分类和边框回归进行合并（又一个开创性的思路），通过多任务Loss层进一步整合深度网络，统一了训练过程，从而提高了算法准确度。 Fast-RCNN虽然加快了不少速度，但是其选择性搜索，找出所有的候选框，这个也非常耗时，于是有人就在Fast-RCNN的基础上解决了这个问题，提出了更快的Faster-RCNN。 Faster-RCNN特点（创新点）：候选框提取不一定要在原图上做，特征图上同样可以，在低分辨率上做意味着计算量减小。那么怎么在特征图上做候选框提取呢：于是有人提出了用神经网络去做，加入一个边缘提取的神经网络，称之为Region Proposal Network(RPN)。具体加入方法： • 将RPN放在最后一个卷积层的后面 • RPN训练好后能使用其直接得到候选区域暂时略 1. . 2. . 3. . 4.黄凯奇，任伟强，谭铁牛.图像物体分类与检测算法综述,中国科学院自动化研究所模式识别国家重点实验室智能感知与计算研究中心,12(36),2013:1225-1240. 5.夏源.基于深度学习的图像物体检测与分类,北京邮电大学，2016. 6. 7. 8.

339 评论 11小时前发布

基于深度学习下的物体检测论文

3个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序