目标检测最新论文2022

2个回答默认排序

默认排序

按时间排序

黎明同台

已采纳

论文:A Dual Weighting Label Assignment Scheme for Object Detection

[图片上传失败...(image-26dcc3-25)]

Anchor作为目标检测器训练的基础单元，需要被赋予正确的分类标签和回归标签，这样的标签指定(LA, label assignment)过程也可认为是损失权重指定过程。对于单个anchor的cls损失计算，可以统一地表示为：

[图片上传失败...(image-2e24aa-25)]

和为正向权重和反向权重，用于控制训练的方向。基于这个设计，可以将LA方法分为两个大类：

[图片上传失败...(image-372b16-25)]

为了给检测器提供更多的监督信息，论文提出了新的LA方法DW(dual weighting)，从不同的角度单独计算和并让其能够互补。此外，为了给权重计算函数提供更准确的reg分数，论文还提出了新的bbox精调操作，预测目标的边界位置并根据对应的特征产生更准确的精调信息。

由于NMS的存在，检测器应该预测一致的bbox，既有高分类分数也有准确的位置定位。但如果在训练时平等地对待所有的训练样本，而cls分数越高的预测结果的reg位置不一定越准确，这往往会导致cls head与reg head之间就会存在不一致性。为此，Soft LA通过加权损失来更柔和地对待训练样本，加强cls head与reg head的一致性。基于Soft LA，anchor的损失可以表示为：

[图片上传失败...(image-51f384-25)]

其中为预测的cls分数。为一致性更高的预测结果分配更大的和，能够使得网络专注于学习高质量的预测结果，减轻cls head与reg head的不一致问题。

[图片上传失败...(image-98093b-25)]

当前的方法直接将设置为，主要关注如何定义一致性以及如何将其集成到损失权重中。表1总结了一些方法对和的计算公式，这些方法先定义用于度量一致性的指标，随后将作为不一致性的度量指标，最后添加缩放因子将指标集成到损失权重中。上述方法的和都是高度相关的，而论文认为pos和neg权重应该以prediction-aware的方式单独设置，具体如下：

通过上述定义，对于pos权重相似的这种模棱两可的anchor，就可以根据不同的neg权重得到更细粒度的监督信息。

[图片上传失败...(image-535eff-25)]

DW方法的整体流程如图2所示，先根据中心点距离来为每个GT构造候选正样本集，其余的anchor为候选负样本。由于负样本的统计信息十分混乱，所以不参与权重函数的计算。候选正样本会被赋予三个权重、以及，用于更有效地监督训练。

pos权重需要反映预测结果对检测性能的重要性，论文从目标检测的验证指标来分析影响重要性的因素。在测试时，通常会根据cls分数或cls分数与IoU的结合对单分类的预测结果进行排序，从前往后依次判断。正确的预测需满足以下两点：

上述条件可认为是选择高ranking分数以及高IoU的预测结果，也意味着满足这两个条件的预测结果有更大概率在测试阶段被选择。从这个角度来看，pos权重就应该与IoU和ranking分数正相关。首先定义一致性指标，用于度量两个条件的对齐程度：

[图片上传失败...(image-aac9d-25)]

为了让不同anchor的pos权重的方差更大，添加指数调节因子：

[图片上传失败...(image-3a2156-25)]

最终，各anchor的pos权重会根据对应GT的候选anchor的pos权重之和进行归一化。

pos权重虽然可以使得一致的anchor同时具有高cls分数和高IoU，但无法区分不一致anchor的重要程度。如前面图1所示，anchor D定位校准但分类分数较低，而anchor B恰好相反。两者的一致性程度一致，pos权重无法区分差异。为了给检测器提供更多的监督信息，准确地体现anchor的重要程度，论文提出为两者赋予更清晰的neg权重，具体由以下两部分构成。

根据COCO的验证指标，IoU不满足阈值的预测结果一律归为错误的检测。所以，IoU是决定achor为负样本的概率的唯一因素，记为。由于COCO使用的IoU阈值来计算AO，所以应该满足以下规则：

[图片上传失败...(image-639b1e-25)]

任意上单调递减的函数都可以作为中间部分。为了简便，论文采用了以下函数：

[图片上传失败...(image-fa54fb-25)]

公式6需要穿过点和，一旦确定了，参数和可通过待定系数法确定。

[图片上传失败...(image-83052a-25)]

图3展示了不同下的曲线。

在推理时，ranking队列中靠前的neg预测结果虽然不会影响召回率，但会降低准确率。为了得到更高的性能，应该尽可能地降低neg预测结果的ranking分数。所以在训练中，ranking分数较高的neg预测结果应该比ranking分数较低的预测结果更为重要。基于此，定义neg预测结果的重要程度为ranking分数的函数：

[图片上传失败...(image-1f95aa-25)]

最终，整体的neg权重变为：

[图片上传失败...(image-851912-25)]

与负相关，与正相关。对于pos权重相同的anchor，IoU更小的会有更大的neg权重。在兼容验证指标的同时，能给予检测器更多的监督信息。

pos权重和neg权重都以IoU作为输入，更准确的IoU可以保证更高质量的训练样本，有助于学习更强的特征。为此，论文提出了新的box精调操作，基于预测的四条边的偏移值进行下一步的精调。

[图片上传失败...(image-98246a-25)]

考虑到目标边界上的点有更大的概率预测准确的位置，论文设计了可学习的预测模块，基于初步的bbox为每条边生成边界点。如图4所示，四个边界点的坐标定义为：

[图片上传失败...(image-a8361b-25)]

其中，为精调模块的输出。最后，结合边界点的预测和精调模块的输出，最终精调后的anchor偏移为：

[图片上传失败...(image-935c8b-25)]

DW策略可直接应用到大多数的dense检测器中。论文将DW应用到FCOS中并进行了少量修改，将centerness分支和分类分支合并成cls分数，网络的损失为：

[图片上传失败...(image-5d0fc-25)]

[图片上传失败...(image-1a38af-25)]

这里的跟公式3是同一个，和分别为候选anchor数和非候选anchor数。

[图片上传失败...(image-20568e-25)]

平衡超参数对性能的影响。

[图片上传失败...(image-14e2fa-25)]

候选anchor选择方法对性能的影响。第一种为中心点的距离阈值，第二种选择最近的几个，第三种为距离权重与pos权重乘积排序。

[图片上传失败...(image-74467a-25)]

neg权重计算方式对比。

[图片上传失败...(image-8baa09-25)]

LA研究之间的对比。

[图片上传失败...(image-9d2740-25)]

与SOTA检测算法对比。

论文提出自适应的label assignment方法DW，打破了以往耦合加权的惯例。根据不同角度的一致性和非一致性指标，动态地为anchor分配独立的pos权重和neg权重，可以更全面地监督训练。此外，论文还提出了新的预测框精调操作，在回归特征图上直接精调预测框。

136 评论 1小时前发布

二的一米

原文： Scalable Object Detection using Deep Neural Networks——学术范最近，深度卷积神经网络在许多图像识别基准上取得了最先进的性能，包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络，它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文，但如果不天真地复制每个实例的输出数量，就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型，它预测了一组与类无关的边界框，每个框有一个分数，对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例，并允许在网络的最高级别上进行跨类泛化。目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器，并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中，以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加，这个挑战变得更加困难，因为大多数方法都训练每个类单独的检测器。为了解决这个问题，人们提出了多种方法，从检测器级联到使用分割提出少量的对象假设。关于对象检测的文献非常多，在本节中，我们将重点讨论利用类不可知思想和解决可伸缩性的方法。许多提出的检测方法都是基于基于部件的模型，最近由于有区别学习和精心设计的特征，已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板，这是非常昂贵的。此外，它们在类的数量上是可伸缩的，这对像ImageNet这样的现代数据集来说是一个挑战。为了解决前一个问题，Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题，Song et al.使用了一个低维部件基，在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。另一种不同的工作，与我们的工作更接近，是基于对象可以本地化的想法，而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机，Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分，并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型，分割作为第一层，分割分类作为后续层。尽管它们编码了已证明的感知原理，但我们将表明，有更深入的模型，充分学习可以导致更好的结果。最后，我们利用了DeepLearning的最新进展，最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而，基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能，但由于单个掩模回归的成本，不能扩展到多个类。我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说，我们使用了深度神经网络(DNN)，它输出固定数量的包围盒。此外，它为每个盒子输出一个分数，表示这个盒子包含一个对象的网络信任度。为了形式化上述思想，我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值，可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸，以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的，后面跟着一个sigmoid。我们可以组合边界盒位置sli,i∈{1，…K}为一个线性层。同样，我们可以将所有置信区间ci,i∈{1，…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层在推理时，我们的算法生成kbound盒。在我们的实验中，我们使用ek = 100和K= 200。如果需要，我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此，它们可以通过后续的分类器进行分类，实现目标检测。由于盒子的数量非常少，我们可以提供强大的分类器。在我们的实验中，我们使用另一个dnn进行分类。我们训练一个DNN来预测每个训练图像的边界框及其置信度得分，以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子，对象被标记为boundingboxesgj,j∈{1，…，M}。在实践中，pre- dictionary的数量远远大于groundtruthboxm的数量。因此，我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置，以提高他们的匹配度，最大化他们的信心。与此同时，我们将剩余预测的置信度最小化，这被认为不能很好地定位真实对象。为了达到上述目的，我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1，如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为其中，我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外，我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为最终的损失目标结合了匹配损失和信心损失受式1的约束。α平衡了不同损失条款的贡献。对于每个训练例子，我们通过解决一个最佳的赋值x*的预测到真实的盒子约束执行赋值解决方案。这是二部匹配的一种变体，是一种多项式复杂度匹配。在我们的应用程序中，匹配是非常便宜的——每幅图像中标记的对象的数量少于一打，而且在大多数情况下只有很少的对象被标记。然后，通过反向传播优化网络参数。例如，反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的，但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类，并找到这样的聚类/质心，我们可以使用这些聚类/质心作为每个预测位置的先验。因此，鼓励学习算法为每个预测位置学习一个残差到一个先验。第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配，而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成，就会像之前一样计算目标的置信度。此外，位置预测损失也不变:对于任何一对匹配的(目标，预测)位置，其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配，并假设它促进了预测的多样化。需要注意的是，尽管我们以一种与类无关的方式定义了我们的方法，但我们可以将它应用于预测特定类的对象盒。要做到这一点，我们只需要在类的边框上训练我们的模型。此外，我们可以预测每个类的kbox。不幸的是，这个模型的参数数量会随着类的数量线性增长。此外，在一个典型的设置中，给定类的对象数量相对较少，这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此，我们认为我们的两步过程——首先本地化，然后识别——是一个更好的选择，因为它允许使用少量参数利用同一图像中多个对象类型的数据我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减，128的小批量，以及使用多个相同的网络副本进行并行分布式训练，从而实现更快的收敛。如前所述，我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外，使用非最大抑制对盒进行修剪，Jaccard相似度阈值为。然后，我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络，我们从训练集中生成了大约3000万幅图像，并对训练集中的每幅图像应用以下步骤。最后，样品被打乱。为了训练我们的本地化网络，我们通过对训练集中的每一幅图像应用以下步骤，从训练集中生成了大约3000万幅图像。对于每幅图像，我们生成相同数量的平方样本，使样本总数大约为1000万。对于每幅图像，样本被桶状填充，这样，对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例，都有相同数量的样本，其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中，我们没有探索任何非标准数据生成或正则化选项。在所有的实验中，所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成，其中包含了20种不同的对象类别的边界框。在我们的评估中，我们关注的是2007版VOC，为此发布了一个测试集。我们通过培训VOC 2012展示了结果，其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。我们在一个由1000万作物组成的数据集上训练分类器，该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。在第一轮中，定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络，我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后，保留评分最高的前10个检测项，并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估，并用于计算精确查全曲线。首先，我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量，正如Pascal检测标准所定义的那样，与生成的包围框的数量相对比。在图1中，我们展示了使用VOC2012进行训练所获得的结果。此外，我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的，当使用10个边界框的预算时，我们可以用第一个模型本地化的对象，用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能，例如对象度算法达到42%[1]。此外，这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象，但当使用更高分辨率的图像作物时，我们获得了额外的提升。进一步，我们用21-way分类器对生成的包围盒进行分类，如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是，与先进水平相当。注意，我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是，可视化检测是通过仅使用最大中心方形图像裁剪，即使用全图像获得的。然而，我们设法获得了相对较小的对象，例如第二行和第二列的船，以及第三行和第三列的羊。在本工作中，我们提出了一种新的方法来定位图像中的对象，该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下，对1000个盒子进行非max-suppression，使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则，并学习在未见图像中预测这些位置。我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果，在这两个基准上，所提出的方法具有竞争力。此外，该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明，deepmultibox的方法是可扩展的，甚至可以在两个数据集之间泛化，就能够预测感兴趣的定位，甚至对于它没有训练的类别。此外，它能够捕获同一类物体的多种情况，这是旨在更好地理解图像的算法的一个重要特征。在未来，我们希望能够将定位和识别路径折叠到一个单一的网络中，这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下，双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估，每个评估的速度大约为1个CPU-sec(现代机器)。重要的是，这个数字并不与要识别的类的数量成线性关系，这使得所提出的方法与类似dpm的方法非常有竞争力。

245 评论 9小时前发布

目标检测最新论文2022

2个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序