cvpr2019检测论文汇总

2个回答默认排序

默认排序

按时间排序

欠我一场爱情

已采纳

雷锋网 AI 科技评论按：百度研究院、华中科技大学、悉尼科技大学联合新作——关于无监督领域自适应语义分割的论文《 Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》被 CCF A 类学术会议 CVPR2019 收录为 Oral 论文。该论文提出了一种从「虚拟域」泛化到「现实域」的无监督语义分割算法，旨在利用易获取的虚拟场景标注数据来完成对标注成本高昂的现实场景数据的语义分割，大大减少了人工标注成本。本文是论文作者之一罗亚威为雷锋网 AI 科技评论提供的论文解读。论文地址： 1.问题背景基于深度学习的语义分割方法效果出众，但需要大量的人工标注进行监督训练。不同于图像分类等任务，语义分割需要像素级别的人工标注，费时费力，无法大规模实施。借助于计算机虚拟图像技术，如3D游戏，用户可以几乎无成本地获得无限量自动标注数据。然而虚拟图像和现实图像间存在严重的视觉差异（域偏移），如纹理、光照、视角差异等等，这些差异导致在虚拟图像上训练出的深度模型往往在真实图像数据集上的分割精度很低。 2. 传统方法针对上述域偏移问题，一种广泛采用的方法是在网络中加入一个域判别器Discriminator (D），利用对抗训练的机制，减少源域Source (S）和目标域Target（T）之间不同分布的差异，以加强原始网络（G）在域间的泛化能力。方法具体包括两方面：（1）利用源域的有标签数据进行有监督学习，提取领域知识：其中Xs，Ys为源域数据及其对应标签。（2）通过对抗学习，降低域判别器（D）的精度，以对齐源域与目标域的特征分布：其中XT为目标域数据，无标签。 3.我们针对传统方法的改进以上基于对抗学习的传统域适应方法只能对齐全局特征分布（Marginal Distribution），而忽略了不同域之间，相同语义特征的语义一致性（Joint Distribution），在训练过程中容易造成负迁移，如图2（a）所示。举例来说，目标域中的车辆这一类，可能与源域中的车辆在视觉上是接近的。因此，在没有经过域适应算法之前，目标域车辆也能够被正确分割。然而，为了迎合传统方法的全局对齐，目标域中的车辆特征反而有可能会被映射到源域中的其他类别，如火车等，造成语义不一致。针对这一问题，我们在今年CVPR的论文中，向对抗学习框架里加入了联合训练的思想，解决了传统域适应方法中的语义不一致性和负迁移等键问题。具体做法见图2（b），我们采用了两个互斥分类器对目标域特征进行分类。当两个分类器给出的预测很一致时，我们认为该特征已经能被很好的分类，语义一致性较高，所以应减少全局对齐策略对这些特征产生的负面影响。反之，当两个分类器给出的预测不一致，说明该目标域特征还未被很好地分类，依然需要用对抗损失进行与源域特征的对齐。所以应加大对齐力度，使其尽快和源域特征对应。 4.网络结构为了实现上述语义级对抗目标，我们提出了Category-Level Adversarial Network (CLAN)。遵循联合训练的思想，我们在生成网络中采用了互斥分类器的结构，以判断目标域的隐层特征是否已达到了局部语义对齐。在后续对抗训练时，网络依据互斥分类器产生的两个预测向量之差（Discrepancy）来对判别网络所反馈的对抗损失进行加权。网络结构如下图3所示。图3中，橙色的线条表示源域流，蓝色的线条表示目标域流，绿色的双箭头表示我们在训练中强迫两个分类器的参数正交，以达到互斥分类器的目的。源域流和传统的方法并无很大不同，唯一的区别是我们集成了互斥分类器产生的预测作为源域的集成预测。该预测一方面被标签监督，产生分割损失（Segmentation Loss），如式（3）所示：另一方面，该预测进入判别器D，作为源域样本。绿色的双箭头处，我们使用余弦距离作为损失，训练两个分类器产生不同的模型参数：目标域流中，集成预测同样进入判别器D。不同的是，我们维持两个分类器预测的差值，作为局部对齐程度的依据 (local alignment score map）。该差值与D所反馈的损失相乘，生成语义级别的对抗损失：该策略加大了语义不一致特征的对齐力度，而减弱了语义一致的特征受全局对齐的影响，从而加强了特征间的语义对齐，防止了负迁移的产生。最后，根据以上三个损失，我们可以得出最终的总体损失函数：基于以上损失函数，算法整体的优化目标为：在训练中，我们交替优化G和D，直至损失收敛。 5. 特征空间分析我们重点关注不常见类，如图4（a）中黄框内的柱子，交通标志。这些类经过传统方法的分布对齐，反而在分割结果中消失了。结合特征的t-SNE图，我们可以得出结论，有些类的特征在没有进行域迁移之前，就已经是对齐的。传统的全局域适应方法反而会破坏这种语义一致性，造成负迁移。而我们提出的语义级别对抗降低了全局对齐对这些已对齐类的影响，很好的解决了这一问题。 6. 实验结果我们在两个域适应语义分割任务，即GTA5 -> Cityscapes 和 SYNTHIA -> Cityscapes 上进行了实验验证。我们采用最常见的Insertion over Union作为分割精度的衡量指标，实验结果如下。从表1和表2中可以看出，在不同网络结构（VGG16，ResNet101）中，我们的方法（CLAN）域适应效果都达到了 state-of-the-art的精度。特别的，在一些不常见类上（用蓝色表示），传统方法容易造成负迁移，而CLAN明显要优于其他方法。表 1. 由虚拟数据集GTA5 迁移至真实数据集 Cityscapes 的域适应分割精度对比。表 2. 由虚拟数据集SYNTHIA 迁移至真实数据集 Cityscapes 的域适应分割精度对比。第二个实验中，我们了展示隐空间层面，源域和目标域间同语义特征簇的中心距离。该距离越小，说明两个域间的语义对齐越好。结果见图 5。最后，我们给出分割结果的可视化效果。我们的算法大大提高了分割精度。 7. 总结《Taking A Closer Look at Domain Shift: Category-level Adversaries for Semantics Consistent Domain Adaptation》引入了联合训练结合对抗学习的设计，在无监督域适应语义分割任务中取得了较好的实验结果。该算法能应用前景广泛，比如能够很好地应用到自动驾驶中，让车辆在不同的驾驶环境中也能保持鲁棒的街景识别率。最后 CVPR 2019 Oral 论文精选汇总，值得一看的 CV 论文都在这里（持续更新中）CVPR 2019 即将于 6 月在美国长滩召开。今年有超过 5165 篇的大会论文投稿，最终录取 1299 篇，其中 Oral 论文近 300 篇。为了方便社区开发者和学术青年查找和阅读高价值论文，AI 研习社从入选的 Oral 论文中，按应用方向挑选了部分精华论文，贴在本文，打开链接即可查看~

258 评论 1小时前发布

孤星泪新民

论文: Region Proposal by Guided Anchoring

Anchor是许多目标检测算法中一个很重要的机制，但也会带来两个问题：

为此，论文提出Guided Anchoring来根据图片特征在线生成anchor。首先判断目标可能出现的位置，然后学习不同位置上的目标的形状，可根据图片特征在线学习稀疏的候选anchor。然而，在线生成的anchor形状各异，固定的感受域可能不匹配其形状，所以Guided Anchoring根据anchor的形状进行自适应特征提取，然后再进行预测框精调与分类。

Guided Anchoring尝试在线学习不同形状的anchor及其位置，得到在特征图上不均匀分布的anchor集合。目标可用四元组表示，其位置和形状可认为是服从图像的一种分布：

公式1包含两部分：1) 给定图片，目标仅存在于某些区域 2) 形状与位置紧密相关。

基于公式1，论文设计了图1的anchor生成器(Anchor generation)，包含位置预测和形状预测两个分支。给定图片，首先得到特征图，位置预测分支根据预测该像素为目标位置的概率，形状预测分支则预测像素位置相关的形状，基于两个分支选择概率高于阈值以及每个位置最合适的anchor，得到最终的anchor集合。由于集合中的anchor形状可能差异很大，每个位置需要获取不同大小区域的特征，论文提出特征自适应模块(Feature adaption)，根据anchor形状自适应提取特征。上述的生成过程是基于单个特征的，网络的整体架构包含FPN，所以为每层都配备Guided anchoring模块，模块参数是层间共享的。

位置预测分支预测特征图的概率图，每项为该位置是目标中心的概率，对应的输入图片中坐标，为特征图的stride。在实现时，通过子网进行概率图预测，首先使用卷积提取主干网络特征图的objectness分数，再通过element-wise sigmoid函数转化概率。更复杂的子网可以带来更高的准确率，论文采用的是准确率和速度最实惠的结构，最后取高于阈值的像素位置，能够保证在高召回的前提下过滤90%的无关区域。

形状预测分支的目标是预测每个位置对应目标的最佳形状，但由于过大的数值范围，如果直接预测其具体数字会十分不稳定，所以先进行转化：

形状预测分支输出和，根据公式2转换出形状，为特征图的stride，为人工设置的缩放因子。这个非线性转换可将[0, 1000]映射到[-1, 1]，更容易学习。在实现时，通过子网进行形状预测，首先使用卷积获得两维特征图，分别对应和，然后通过公式2进行转换。由于每个位置的anchor都是学习来的，与预设的固定anchor对比，这种学习的anchor召回率更高。

常规的预设anchor方法由于各位置的anchor是一样的，可以对每个位置进行一样的特征提取，然后再调整anchor和预测分类。但Guided Anchoring每个位置的anchor各不一样，理想情况下，较大的anchor需要较大的感受域特征，反之则需要较小的感受域特征，所以论文设计了基于anchor形状的特征自适应模块(anchor-guided feature adaptation component)，根据每个位置的anchor形状转换特征：

为位置的特征，为对应的anchor形状，为可变形卷积，变形卷积的偏移值由卷积将位置预测分支输出转换获得，为自适应特征，用于后续的anchor调整以及分类预测，具体见图1。

网络的整体损失函数由4部分构成，分别是分类损失、回归损失、anchor位置损失以及anchor形状损失：

假设目标在特征图上的映射为，定义以下三种区域：

主干网络使用了FPN，FPN的每层应该只负责特定大小范围内的目标的训练。由于相邻层的特征相似，所以将IR区域映射到相邻层，这时的IR区域不考虑CR区域，区域内同样不参与训练，如图2所示。当多个目标重叠时，CR区域优先于IR区域，IR区域优先于OR区域，训练采用Focal loss。

首先，定义动态anchor 与GT间的最优问题为：

如果对每个位置都进行公式5的求解，这计算量会相当大，为此，论文用采样的方法来逼近公式5，采样的范围为常见的anchor样例，比如RetinaNet的9种anchor。对于每个位置，选择IoU最大的anchor作为公式5的结果。采样的范围越大，anchor的生成结果更准，但会带来更多的额外计算量，anchor的采用smooth-L1训练：

将Guided Anchoring嵌入RPN得到增强型GA-RPN，与原版进行对比，从图3可以看到：

从结果来看，GA-RPN的效果比RPN好很多，论文直接将RPN替换GA-RPN仅带来小于1的AP提升。根据观察发现，使用高质量候选框的前提是，需要根据候选框的分布来调整训练数据的分布。所以，在使用GA-RPN时，需要设置更高的正负样本阈值，让网络更加关注高质量的候选框。另外，论文发现GA-RPN也可以fine-tune的形式boost两阶段检测器的性能，给定训练好的检测模型，将RPN替换为GA-RPN进行几轮迭代，能带来不错的性能提升。

与各种候选框方法进行对比。

嵌入效果对比。

fine-tune对比。

Guided Anchoring通过在线生成anchor的方式解决常规手工预设anchor存在的问题，以及能够根据生成的anchor自适应特征，在嵌入方面提供了两种实施方法，是一个很完整的解决方案。但有个不好的点在于anchor target的生成，为了保证性能弄得不够完美，希望有人能提出更准确且高效的公式5解决方案。

104 评论 10小时前发布

cvpr2019检测论文汇总

2个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序