cvpr2020目标检测论文

3个回答默认排序

默认排序

按时间排序

小七木瓜

已采纳

论文地址：前置文章：10/16、10/17、10/18

本文提出了Point Fractal Network(PF-Net),旨在从不完整的点云数据中恢复点云，克服了之前方法修改现有数据点、引入噪声和产生几何损失的缺点。

由前置文章可知，之前的点云修复方法是输入不完整的点云，输出完整的点云，但这样会导致原有信息的缺失。这篇文章提出PF-Net，主要特点有三个：

网络的整体结构如下：

网络详细推理步骤如下：

损失函数使用完整性损失和对抗损失的加权平均，完整性损失使用L-GAN中提出的CD距离：

对抗损失使用GAN中常见的损失函数

感觉这篇文章对多尺度的运用非常极致，在编码器、解码器和CMLP中都应用了这种思想，最后的效果也非常不错，很值得借鉴。

论文地址：

PointNet提出一种基础的网络结构，可以用于点云分类、部分分割和语义分割等多种任务。在这篇文章之前，点云数据的处理方式是将点云数据转换为多个二维的视图或三维的体素形式，然后应用2D/3D CNN进行处理，但这样引入了多余的体积，效率不高。本文是第一个直接使用点云数据的神经网络。（其实可以这样类比，在二维图像处理中，假设图像是二值化的，传统方法是将这个图像直接丢到CNN里面，但如果背景特别多会比较浪费资源。直接使用点云数据相当于直接将前景像素的坐标输入到神经网络里面，对稀疏数据会有比较好的性能，但因为以下三个问题导致直接使用坐标信息比较困难）由于点云的排列是无序的（可以想象，点云中任意一点排在前面对点云的表达都是相同的）、点云之间是有相互作用的（相邻的点云才能构成形状）、点云在某些变换下具有不变性（比如旋转不会改变点云的类别）这些特性，要求神经网络既能处理无序的数据，又能捕捉全局的结构特征，同时对刚性变换不敏感。基于这些条件，作者提出了如下的网络结构：

可以简要分析一下网络的工作流程，以点云分类问题为例：

感觉网络的结构虽然简单，但是却很好地满足了点云数据自身特性对神经网络的要求。而且我觉得在图像处理中，也有时候必须用到坐标信息或者一些标量特征，这篇文章的方法对于怎样将这些特征融合进CNN里面也有一定的启发意义。

论文地址：

这篇文章的主要工作是：

首先来看衡量两个点云相似程度的指标部分，作者首先给出了两个距离，EMD和CD：

在计算上，CD更为简便，而且EMD是不可导的。

基于这两种距离，作者引入了三种衡量两个点云相似程度的指标：JSD、Coverage和MMD：

定义了指标后，就可以实现自动编码器和生成模型了。作者提到了四种结构，分别是：

作者同时验证了AE的一些其他功能，比如如果给AE的编码器输入不完整的点云数据，即可训练得到点云复原的模型。使用SVM对低维表示进行分类，即可进行点云分类的任务，证明AE在点云数据形式中的潜在应用较为广泛。

论文地址：

PointNet++针对PointNet提取局部信息能力不强的弊端，提出了一种层次神经网络，可以更好地提取局部信息。其中心思想是将整个点云分割成若干个小部分来提取信息，然后将每个小部分整合成较大的部分，提取更高层次的信息。类似于CNN中卷积和下采样的思想。首先来看网络结构图：

网络大概可以分为两个部分，左边是层次的点云特征提取网络，右边是针对不同任务的解码网络。特征提取分为若干个set abstraction模块，每个模块又分为采样层、分组层和特征提取层。

得到了较高层次的特征后，对不同的任务需要不同的解码网络。对分类网络来说比较简单，使用全连接即可。对分割网络来说，由于对每个点都需要输出数值，则需要类似上采样的操作。具体的实现作者使用了插值的方法，将较少的点插值到较多的点上去。首先找到插值的目标坐标，然后寻找K个距离最近的已知点，以距离的倒数作为权重，将K个点的特征做加权平均，作为这个点的特征。然后使用之前特征提取中得到的该点的特征与当前特征做一个拼接，即可得到最终特征（类似U-Net的skip connection）。公式如下：

感觉这篇文章和PF-Net的思想差不多，都是希望提取多尺度的特征。但是思路不一样，都值得借鉴。

339 评论 1小时前发布

A-水灵儿^O^

CVPR 2020一共收录了67篇GNN相关论文。有空慢慢更。 : Unsupervised Learning of Graph Transformation Equivariant Representations via Auto-Encoding Node-wise Transformations [MSAR] for Fast and Scalable Point Cloud Learning [点云] 摘要：由于点云数据的稀疏性和不规则性，越来越多的方法直接使用点云数据。在所有基于point的模型中，图卷积网络（GCN）通过完全保留数据粒度和利用点间的相互关系表现出显著的性能。然而，基于点的网络在数据结构化(例如，最远点采样(FPS)和邻接点查询)上花费了大量的时间，限制了其速度和可扩展性。本文提出了一种快速、可扩展的点云学习方法--Grid-GCN。Grid-GCN采用了一种新颖的数据结构策略--Coverage-Aware Grid Query(CAGQ)。通过利用网格空间的效率，CAGQ在降低理论时间复杂度的同时提高了空间覆盖率。与最远的点采样（FPS）和Ball Query等流行的采样方法相比，CAGQ的速度提高了50倍。通过网格上下文聚合(GCA)模块，Grid-GCN在主要点云分类和分割基准上实现了最先进的性能，并且运行时间比以前的方法快得多。值得注意的是，在每个场景81920个点的情况下，Grid-GCN在ScanNet上的推理速度达到了50fps。3. Object Relational Graph with Teacher-Recommended Learning for Video Captioning 摘要：充分利用视觉和语言的信息对于视频字幕任务至关重要。现有的模型由于忽视了目标之间的交互而缺乏足够的视觉表示，并且由于长尾（long-tailed）问题而对与内容相关的词缺乏足够的训练。在本文中，我们提出了一个完整的视频字幕系统，包括一种新的模型和一种有效的训练策略。具体地说，我们提出了一种基于目标关系图(ORG)的编码器，该编码器捕获了更详细的交互特征，以丰富视觉表示。同时，我们设计了一种老师推荐学习(Teacher-Recommended Learning, TRL)的方法，充分利用成功的外部语言模型(ELM)将丰富的语言知识整合到字幕模型中。ELM生成了在语义上更相似的单词，这些单词扩展了用于训练的真实单词，以解决长尾问题。对三个基准MSVD，MSR-VTT和VATEX进行的实验评估表明，所提出的ORG-TRL系统达到了最先进的性能。广泛的消去研究和可视化说明了我们系统的有效性。4. Social-STGCNN: A Social Spatio-Temporal Graph Convolutional Neural Network for Human Trajectory Prediction 摘要：有了更好地了解行人行为的机器可以更快地建模智能体（如：自动驾驶汽车）和人类之间的特征交互。行人的运动轨迹不仅受行人自身的影响，还受与周围物体相互作用的影响。以前的方法通过使用各种聚合方法（整合了不同的被学习的行人状态）对这些交互进行建模。我们提出了社交-时空图卷积神经网络(Social-STGCNN)，它通过将交互建模为图来代替聚合方法。结果表明，最终位偏误差(FDE)比现有方法提高了20%，平均偏移误差(ADE)提高了倍，推理速度提高了48倍。此外，我们的模型是数据高效的，在只有20%的训练数据上ADE度量超过了以前的技术。我们提出了一个核函数来将行人之间的社会交互嵌入到邻接矩阵中。通过定性分析，我们的模型继承了行人轨迹之间可以预期的社会行为。5. Unbiased Scene Graph Generation from Biased Training 摘要：由于严重的训练偏差，场景图生成（SGG）的任务仍然不够实际，例如，将海滩上的各种步行/坐在/躺下的人简化为海滩上的人。基于这样的SGG，VQA等下游任务很难推断出比一系列对象更好的场景结构。然而，SGG中的debiasing 是非常重要的，因为传统的去偏差方法不能区分好的和不好的偏差，例如，好的上下文先验(例如，人看书而不是吃东西)和坏的长尾偏差(例如，将在后面/前面简化为邻近)。与传统的传统的似然推理不同，在本文中，我们提出了一种新的基于因果推理的SGG框架。我们首先为SGG建立因果关系图，然后用该因果关系图进行传统的有偏差训练。然后，我们提出从训练好的图中提取反事实因果关系（counterfactual causality），以推断应该被去除的不良偏差的影响。我们使用Total Direct Effect作为无偏差SGG的最终分数。我们的框架对任何SGG模型都是不可知的，因此可以在寻求无偏差预测的社区中广泛应用。通过在SGG基准Visual Genome上使用我们提出的场景图诊断工具包和几种流行的模型，与以前的最新方法相比有显著提升。6. Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences 在本文中，我们考虑了一项用于多形式句子（Multi-Form Sentences）的时空Video Grounding（STVG）的任务。即在给定未剪辑的视频和描述对象的陈述句/疑问句，STVG旨在定位所查询目标的时空管道（tube）。STVG有两个具有挑战性的设置：(1)我们需要从未剪辑的视频中定位时空对象管道，但是对象可能只存在于视频的一小段中；（2）我们需要处理多种形式的句子，包括带有显式宾语的陈述句和带有未知宾语的疑问句。由于无效的管道预生成和缺乏对象关系建模，现有方法无法解决STVG任务。为此，我们提出了一种新颖的时空图推理网络(STGRN)。首先，我们构建时空区域图来捕捉具有时间对象动力学的区域关系，包括每帧内的隐式、显式空间子图和跨帧的时间动态子图。然后，我们将文本线索加入到图中，并开发了多步跨模态图推理。接下来，我们引入了一种具有动态选择方法的时空定位器，该定位器可以直接检索时空管道，而不需要预先生成管道。此外，我们在视频关系数据集Vidor的基础上构建了一个大规模的video grounding数据集VidSTG。大量的实验证明了该方法的有效性。

306 评论 7小时前发布

家D玫瑰

当前做instance segmentation的大多数工作采用了Mask R-CNN 的Pipeline。它基本的pipeline是先检测物体矩形框，然后在矩形框中做逐像素分割。 Mask R-CNN达到了很好的instance segmentation的结果，但是这样的pipeline其实有一些limitation：考虑到逐像素分割有诸多限制，文章的工作选择用contour来表示物体的shape。Contour是一组有序的点，而且是首尾相连的。比如图片中猫的边缘就是一个Contour。 Contour相对于用稠密像素表示物体有两大优势：实例分割是许多计算机视觉任务中的重要手段，目前大多数的算法都采用在给定的bbox中进行pixel-wise分割的方法。受snake算法和Curve-GCN的启发，论文采用基于轮廓的逐步调整策略，提出了Deep snake算法进行实时实例分割，该算法将初始轮廓逐渐优化为目标的边界，如图所示，达到很好的性能且依然保持很高的实时性()。 Deep snake方法将初始轮廓逐渐优化为目标的边界来进行目标分割，即将物体轮廓作为输入，基于CNN主干特征预测每个顶点的偏移量。为了充分利用轮廓拓扑结构，论文使用循环卷积(circular convolution)进行顶点特征的学习，有助于学习轮廓的优化，并基于deep snake提出了一套实时实例分割的流程。传统的snake算法将顶点的坐标作为变量来优化人工设计的能量函数(energy function)，通过最小化能量函数来拟合目标边界。由于能量函数通常是非凸的，而且需要基于低维图像特征进行人工设计，通常会陷于局部最优解。而deep snake则是直接从数据学习如何微调轮廓，对于个顶点，首先构造每个顶点的特征向量，顶点的特征为对应的网络特征和顶点坐标的concate，其中为主干网络输出的特征图，为顶点处的双线性差值输出，附加的用于描述顶点间的位置关系，是平移不变的，由每个顶点坐标减去轮廓中所有顶点的最小和得到相对坐标。在获得顶点特征后，需要对轮廓特征进一步学习，顶点的特征可以视作1-D离散信号，然后使用标准卷积对顶点逐个进行处理，但这样会破坏轮廓的拓扑结构。因此，将顶点特征定义为公式1的周期信号，然后使用公式2的循环卷积进行特征学习，为可学习的卷积核，为标准卷积操作。将deep snake加入到目标检测模型中进行实例分割，流程如图b所示。模型首先产生目标框，将其构建成菱形框，然后使用deep snake算法将菱形顶点调整为目标极点，构造八边形轮廓，最后进行迭代式deep snake轮廓调整得到目标形状论文采用ExtreNet的极点思想，能够很好地包围物体。在得到矩形框后，获取4条边的中心点连成菱形轮廓，使用deep snake对菱形轮廓调整成极点，然后每个极点放置一条边，连接边构造多边形，每个极点的边为其对应的bbox边的，若边超过原bbox范围会被截断。在实际使用时，菱形轮廓输入deep snake前会平均上采样到40个点(有助于deep snake计算)，但损失函数计算只考虑的对应偏移对八边形平均采样个点，将上极点作为起点，同样地，GT轮廓对物体边缘平均采样个点，将靠近的点作为起点，一般为128。如果顶点离GT很远，很难直接正确调整，于是采用迭代式地进行deep snake调整，实验采用的迭代次数为3次。轮廓是目标空间位置的一种扩展表示方法，通过调整轮廓到物体边缘能够帮助解决detector的定位误差由于遮挡，一个实例可能包含多个组件，然而一个轮廓只能勾勒出bbox内的一个组件。为了解决这个问题，使用RoIAlign来提取初始bbox特征，然后配合detector来检测组件的box，再对每个box进行上述的轮廓调整，最后结合初始bbox内相同类别的组件输出最终的物体形状。极点的损失函数如公式3，为预测的极点。迭代轮廓调整的损失函数如公式4，为调整后的顶点，为对应的GT边缘点。对于检测部分，则采用跟原检测函数一样的损失函数。使用CenterNet作为检测器，对于物体检测，使用跟原来一样的设定输出类别相关的box，而对于组件检测，则使用类不可知的CenterNet，对于的特征图，输出的中心点heatmap和的box大小特征图。 Baseline将轮廓视为图结构，然后使用GCN进行轮廓调整，初始轮廓为围绕bbox的椭圆，Arichitecture加入Fusion block，Initial proposal加入论文的轮廓初始化方法，最后是将GCN修改为循环卷积，可以看到每个步骤都对AP有提升。论文也对比了卷积类型以及迭代次数对结构的影响，可以看到循环卷积的结果比GCN要好。论文在不同的数据集上都取得了不错的效果，作者在每个数据集上的训练参数都有点不一样，具体参数可以看看原文论文提出基于轮廓的实例分割方法Deep snake，轮廓调整是个很不错的方向，引入循环卷积，不仅提升了性能还减少了计算量，保持了实时性，但是Deep snake的大体结构不够优雅，应该还有一些工作可以补 [1] 彭思达 - 实例分割新思路: Deep Snake (CVPR20'Oral Paper) [2] Deep Snake: 基于轮廓调整的SOTA实例分割方法，速度| CVPR 2020 [3] He, Kaiming, et al. "Mask r-cnn." In ICCV, 2017. [4] Kass, Michael, Andrew Witkin, and Demetri Terzopoulos. "Snakes: Active contour models." In IJCV, 1988. [5] Ling, Huan, et al. "Fast interactive object annotation with curve-gcn." In CVPR, 2019. [6] Zhou, Xingyi, Jiacheng Zhuo, and Philipp Krahenbuhl. "Bottom-up object detection by grouping extreme and center points." In CVPR, 2019. [7] Zhou, Xingyi, Dequan Wang, and Philipp Krahenbuhl. "Objects as points." In arXiv preprint arXiv:, 2019.

235 评论 12小时前发布

cvpr2020目标检测论文

3个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序