cvpr2022论文模板

2个回答默认排序

默认排序

按时间排序

郭嘎嘎2222

已采纳

论文:A Dual Weighting Label Assignment Scheme for Object Detection

[图片上传失败...(image-26dcc3-1650423723225)]

Anchor作为目标检测器训练的基础单元，需要被赋予正确的分类标签和回归标签，这样的标签指定(LA, label assignment)过程也可认为是损失权重指定过程。对于单个anchor的cls损失计算，可以统一地表示为：

[图片上传失败...(image-2e24aa-1650423723225)]

和为正向权重和反向权重，用于控制训练的方向。基于这个设计，可以将LA方法分为两个大类：

[图片上传失败...(image-372b16-1650423723225)]

为了给检测器提供更多的监督信息，论文提出了新的LA方法DW(dual weighting)，从不同的角度单独计算和并让其能够互补。此外，为了给权重计算函数提供更准确的reg分数，论文还提出了新的bbox精调操作，预测目标的边界位置并根据对应的特征产生更准确的精调信息。

由于NMS的存在，检测器应该预测一致的bbox，既有高分类分数也有准确的位置定位。但如果在训练时平等地对待所有的训练样本，而cls分数越高的预测结果的reg位置不一定越准确，这往往会导致cls head与reg head之间就会存在不一致性。为此，Soft LA通过加权损失来更柔和地对待训练样本，加强cls head与reg head的一致性。基于Soft LA，anchor的损失可以表示为：

[图片上传失败...(image-51f384-1650423723225)]

其中为预测的cls分数。为一致性更高的预测结果分配更大的和，能够使得网络专注于学习高质量的预测结果，减轻cls head与reg head的不一致问题。

[图片上传失败...(image-98093b-1650423723225)]

当前的方法直接将设置为，主要关注如何定义一致性以及如何将其集成到损失权重中。表1总结了一些方法对和的计算公式，这些方法先定义用于度量一致性的指标，随后将作为不一致性的度量指标，最后添加缩放因子将指标集成到损失权重中。上述方法的和都是高度相关的，而论文认为pos和neg权重应该以prediction-aware的方式单独设置，具体如下：

通过上述定义，对于pos权重相似的这种模棱两可的anchor，就可以根据不同的neg权重得到更细粒度的监督信息。

[图片上传失败...(image-535eff-1650423723225)]

DW方法的整体流程如图2所示，先根据中心点距离来为每个GT构造候选正样本集，其余的anchor为候选负样本。由于负样本的统计信息十分混乱，所以不参与权重函数的计算。候选正样本会被赋予三个权重、以及，用于更有效地监督训练。

pos权重需要反映预测结果对检测性能的重要性，论文从目标检测的验证指标来分析影响重要性的因素。在测试时，通常会根据cls分数或cls分数与IoU的结合对单分类的预测结果进行排序，从前往后依次判断。正确的预测需满足以下两点：

上述条件可认为是选择高ranking分数以及高IoU的预测结果，也意味着满足这两个条件的预测结果有更大概率在测试阶段被选择。从这个角度来看，pos权重就应该与IoU和ranking分数正相关。首先定义一致性指标，用于度量两个条件的对齐程度：

[图片上传失败...(image-aac9d-1650423723225)]

为了让不同anchor的pos权重的方差更大，添加指数调节因子：

[图片上传失败...(image-3a2156-1650423723225)]

最终，各anchor的pos权重会根据对应GT的候选anchor的pos权重之和进行归一化。

pos权重虽然可以使得一致的anchor同时具有高cls分数和高IoU，但无法区分不一致anchor的重要程度。如前面图1所示，anchor D定位校准但分类分数较低，而anchor B恰好相反。两者的一致性程度一致，pos权重无法区分差异。为了给检测器提供更多的监督信息，准确地体现anchor的重要程度，论文提出为两者赋予更清晰的neg权重，具体由以下两部分构成。

根据COCO的验证指标，IoU不满足阈值的预测结果一律归为错误的检测。所以，IoU是决定achor为负样本的概率的唯一因素，记为。由于COCO使用0.5-0.95的IoU阈值来计算AO，所以应该满足以下规则：

[图片上传失败...(image-639b1e-1650423723225)]

任意上单调递减的函数都可以作为中间部分。为了简便，论文采用了以下函数：

[图片上传失败...(image-fa54fb-1650423723225)]

公式6需要穿过点和，一旦确定了，参数和可通过待定系数法确定。

[图片上传失败...(image-83052a-1650423723225)]

图3展示了不同下的曲线。

在推理时，ranking队列中靠前的neg预测结果虽然不会影响召回率，但会降低准确率。为了得到更高的性能，应该尽可能地降低neg预测结果的ranking分数。所以在训练中，ranking分数较高的neg预测结果应该比ranking分数较低的预测结果更为重要。基于此，定义neg预测结果的重要程度为ranking分数的函数：

[图片上传失败...(image-1f95aa-1650423723225)]

最终，整体的neg权重变为：

[图片上传失败...(image-851912-1650423723225)]

与负相关，与正相关。对于pos权重相同的anchor，IoU更小的会有更大的neg权重。在兼容验证指标的同时，能给予检测器更多的监督信息。

pos权重和neg权重都以IoU作为输入，更准确的IoU可以保证更高质量的训练样本，有助于学习更强的特征。为此，论文提出了新的box精调操作，基于预测的四条边的偏移值进行下一步的精调。

[图片上传失败...(image-98246a-1650423723225)]

考虑到目标边界上的点有更大的概率预测准确的位置，论文设计了可学习的预测模块，基于初步的bbox为每条边生成边界点。如图4所示，四个边界点的坐标定义为：

[图片上传失败...(image-a8361b-1650423723225)]

其中，为精调模块的输出。最后，结合边界点的预测和精调模块的输出，最终精调后的anchor偏移为：

[图片上传失败...(image-935c8b-1650423723225)]

DW策略可直接应用到大多数的dense检测器中。论文将DW应用到FCOS中并进行了少量修改，将centerness分支和分类分支合并成cls分数，网络的损失为：

[图片上传失败...(image-5d0fc-1650423723225)]

[图片上传失败...(image-1a38af-1650423723225)]

这里的跟公式3是同一个，和分别为候选anchor数和非候选anchor数。

[图片上传失败...(image-20568e-1650423723225)]

平衡超参数对性能的影响。

[图片上传失败...(image-14e2fa-1650423723225)]

候选anchor选择方法对性能的影响。第一种为中心点的距离阈值，第二种选择最近的几个，第三种为距离权重与pos权重乘积排序。

[图片上传失败...(image-74467a-1650423723225)]

neg权重计算方式对比。

[图片上传失败...(image-8baa09-1650423723225)]

LA研究之间的对比。

[图片上传失败...(image-9d2740-1650423723225)]

与SOTA检测算法对比。

论文提出自适应的label assignment方法DW，打破了以往耦合加权的惯例。根据不同角度的一致性和非一致性指标，动态地为anchor分配独立的pos权重和neg权重，可以更全面地监督训练。此外，论文还提出了新的预测框精调操作，在回归特征图上直接精调预测框。

209 评论 1小时前发布

史瑞克0111

本文作为OC-SORT的论文阅读记录，中间可能会加入自己的看法，由于是tracking这块的初学者，文中若有错误的认识麻烦读者帮忙修正。

OC-SORT是来自 CVPR2022 的一篇文章，采用的范式是MOT中的TBD（Tracking by Detection）。虽然学术界中JDE的研究越来越多，2022年开始也有很多基于Transformer的方法效果非常不错，但是目前工业界还是使用TBD这种方式比较多，类似还有Bytetrack等等，基本都可以满足跟踪的需求。

TBD范式中比较出名的一系列就是SORT系列，这其中笔者了解的有最初的鼻祖SORT，还有后期衍生出来的DeepSORT, StrongSORT, StrongSORT++, ByteTrack，还有本文要讨论的OC-SORT。

关于SORT系列方法具体解析可以参考下面的博客和帖子，个人认为写的很详细和易懂，方便随时查阅：

通过回顾SORT方法，作者提出三个问题作为方法设计的动机：

文章提出三项改进：

这种在线平滑方式通过当前帧检测到的结果和之前帧的轨迹位置，来生成更多的虚拟点，以此辅助KF做预测。具体通过⼀个虚拟的轨迹对参数进行在线平滑，回溯到目标检测丢失的时候，可以修复在时间间隔内累积的误差。

在计算IOU度量矩阵的时候，把速度/方向计算成代价矩阵放在原来的度量矩阵中，（个人理解类似模型训练的trick）：

这部分看的不是很懂…

OCR用于恢复轨迹，这部分依赖于检测值而不是错误的估计值。当轨迹丢失后检测目标再出现时，直接将丢失轨迹时检测值和重新出现的检测值相关联以恢复轨迹。

132 评论 6小时前发布

cvpr2022论文模板

2个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序