大尾巴狼外婆
论文:A Dual Weighting Label Assignment Scheme for Object Detection
[图片上传失败...(image-26dcc3-1650423723225)]
Anchor作为目标检测器训练的基础单元,需要被赋予正确的分类标签和回归标签,这样的标签指定(LA, label assignment)过程也可认为是损失权重指定过程。对于单个anchor的cls损失计算,可以统一地表示为:
[图片上传失败...(image-2e24aa-1650423723225)]
和 为正向权重和反向权重,用于控制训练的方向。基于这个设计,可以将LA方法分为两个大类:
[图片上传失败...(image-372b16-1650423723225)]
为了给检测器提供更多的监督信息,论文提出了新的LA方法DW(dual weighting),从不同的角度单独计算 和 并让其能够互补。此外,为了给权重计算函数提供更准确的reg分数,论文还提出了新的bbox精调操作,预测目标的边界位置并根据对应的特征产生更准确的精调信息。
由于NMS的存在,检测器应该预测一致的bbox,既有高分类分数也有准确的位置定位。但如果在训练时平等地对待所有的训练样本,而cls分数越高的预测结果的reg位置不一定越准确,这往往会导致cls head与reg head之间就会存在不一致性。为此,Soft LA通过加权损失来更柔和地对待训练样本,加强cls head与reg head的一致性。基于Soft LA,anchor的损失可以表示为:
[图片上传失败...(image-51f384-1650423723225)]
其中 为预测的cls分数。为一致性更高的预测结果分配更大的 和 ,能够使得网络专注于学习高质量的预测结果,减轻cls head与reg head的不一致问题。
[图片上传失败...(image-98093b-1650423723225)]
当前的方法直接将 设置为 ,主要关注如何定义一致性以及如何将其集成到损失权重中。表1总结了一些方法对 和 的计算公式,这些方法先定义用于度量一致性的指标 ,随后将 作为不一致性的度量指标,最后添加缩放因子将指标集成到损失权重中。 上述方法的 和 都是高度相关的,而论文认为pos和neg权重应该以prediction-aware的方式单独设置,具体如下:
通过上述定义, 对于pos权重相似的这种模棱两可的anchor,就可以根据不同的neg权重得到更细粒度的监督信息 。
[图片上传失败...(image-535eff-1650423723225)]
DW方法的整体流程如图2所示,先根据中心点距离来为每个GT构造候选正样本集,其余的anchor为候选负样本。由于负样本的统计信息十分混乱,所以不参与权重函数的计算。候选正样本会被赋予三个权重 、 以及 ,用于更有效地监督训练。
pos权重需要反映预测结果对检测性能的重要性,论文从目标检测的验证指标来分析影响重要性的因素。在测试时,通常会根据cls分数或cls分数与IoU的结合对单分类的预测结果进行排序,从前往后依次判断。正确的预测需满足以下两点:
上述条件可认为是选择高ranking分数以及高IoU的预测结果,也意味着满足这两个条件的预测结果有更大概率在测试阶段被选择。从这个角度来看,pos权重 就应该与IoU和ranking分数正相关。首先定义一致性指标 ,用于度量两个条件的对齐程度:
[图片上传失败...(image-aac9d-1650423723225)]
为了让不同anchor的pos权重的方差更大,添加指数调节因子:
[图片上传失败...(image-3a2156-1650423723225)]
最终,各anchor的pos权重会根据对应GT的候选anchor的pos权重之和进行归一化。
pos权重虽然可以使得一致的anchor同时具有高cls分数和高IoU,但无法区分不一致anchor的重要程度。如前面图1所示,anchor D定位校准但分类分数较低,而anchor B恰好相反。两者的一致性程度 一致,pos权重无法区分差异。为了给检测器提供更多的监督信息,准确地体现anchor的重要程度,论文提出为两者赋予更清晰的neg权重,具体由以下两部分构成。
根据COCO的验证指标,IoU不满足阈值的预测结果一律归为错误的检测。所以,IoU是决定achor为负样本的概率的唯一因素,记为 。由于COCO使用0.5-0.95的IoU阈值来计算AO,所以 应该满足以下规则:
[图片上传失败...(image-639b1e-1650423723225)]
任意 上单调递减的函数都可以作为 中间部分。为了简便,论文采用了以下函数:
[图片上传失败...(image-fa54fb-1650423723225)]
公式6需要穿过点 和 ,一旦 确定了,参数 和 可通过待定系数法确定。
[图片上传失败...(image-83052a-1650423723225)]
图3展示了不同 下的 曲线。
在推理时,ranking队列中靠前的neg预测结果虽然不会影响召回率,但会降低准确率。为了得到更高的性能,应该尽可能地降低neg预测结果的ranking分数。所以在训练中,ranking分数较高的neg预测结果应该比ranking分数较低的预测结果更为重要。基于此,定义neg预测结果的重要程度 为ranking分数的函数:
[图片上传失败...(image-1f95aa-1650423723225)]
最终,整体的neg权重 变为:
[图片上传失败...(image-851912-1650423723225)]
与 负相关,与 正相关。对于pos权重相同的anchor,IoU更小的会有更大的neg权重。在兼容验证指标的同时, 能给予检测器更多的监督信息。
pos权重和neg权重都以IoU作为输入,更准确的IoU可以保证更高质量的训练样本,有助于学习更强的特征。为此,论文提出了新的box精调操作,基于预测的四条边的偏移值 进行下一步的精调。
[图片上传失败...(image-98246a-1650423723225)]
考虑到目标边界上的点有更大的概率预测准确的位置,论文设计了可学习的预测模块,基于初步的bbox为每条边生成边界点。如图4所示,四个边界点的坐标定义为:
[图片上传失败...(image-a8361b-1650423723225)]
其中, 为精调模块的输出。最后,结合边界点的预测和精调模块的输出,最终精调后的anchor偏移 为:
[图片上传失败...(image-935c8b-1650423723225)]
DW策略可直接应用到大多数的dense检测器中。论文将DW应用到FCOS中并进行了少量修改,将centerness分支和分类分支合并成cls分数,网络的损失为:
[图片上传失败...(image-5d0fc-1650423723225)]
[图片上传失败...(image-1a38af-1650423723225)]
这里的 跟公式3是同一个, 和 分别为候选anchor数和非候选anchor数。
[图片上传失败...(image-20568e-1650423723225)]
平衡超参数对性能的影响。
[图片上传失败...(image-14e2fa-1650423723225)]
候选anchor选择方法对性能的影响。第一种为中心点的距离阈值,第二种选择最近的几个,第三种为距离权重与pos权重乘积排序。
[图片上传失败...(image-74467a-1650423723225)]
neg权重计算方式对比。
[图片上传失败...(image-8baa09-1650423723225)]
LA研究之间的对比。
[图片上传失败...(image-9d2740-1650423723225)]
与SOTA检测算法对比。
论文提出自适应的label assignment方法DW,打破了以往耦合加权的惯例。根据不同角度的一致性和非一致性指标,动态地为anchor分配独立的pos权重和neg权重,可以更全面地监督训练。此外,论文还提出了新的预测框精调操作,在回归特征图上直接精调预测框。
Emily147303
小目标问题在物体检测和语义分割等视觉任务中一直是存在的一个难点,小目标的检测精度通常只有大目标的一半。
CVPR2019论文: Augmentation for small object detection 提到了一些应对小目标检测的方法,笔者结合这篇论文以及查阅其它资料,对小目标检测相关技巧在本文进行了部分总结。
小目标的定义: 在MS COCO数据集中,面积小于 32*32 的物体被认为是小物体。
小目标难以检测的原因: 分辨率低,图像模糊,携带的信息少。由此所导致特征表达能力弱,也就是在提取特征的过程中,能提取到的特征非常少,这不利于我们对小目标的检测。
1、由于小目标面积太小,可以放大图片后再做检测,也就是在尺度上做文章,如FPN(Feature Pyramid Networks for Object Detection),SNIP(An Analysis of Scale Invariance in Object Detection – SNIP)。
Feature-Fused SSD: Fast Detection for Small Objects, Detecting Small Objects Using a Channel-Aware Deconvolutional Network 也是在多尺度上做文章的论文。
2、在Anchor上做文章(Faster Rcnn,SSD, FPN都有各自的anchor设计),anchor在设置方面需要考虑三个因素:
anchor的密度: 由检测所用feature map的stride决定,这个值与前景阈值密切相关。
anchor的范围: RetinaNet中是anchor范围是32~512,这里应根据任务检测目标的范围确定,按需调整anchor范围,或目标变化范围太大如MS COCO,这时候应采用多尺度测试。
anchor的形状数量: RetinaNet每个位置预测三尺度三比例共9个形状的anchor,这样可以增加anchor的密度,但stride决定这些形状都是同样的滑窗步进,需考虑步进会不会太大,如RetinaNet框架前景阈值是0.5时,一般anchor大小是stride的4倍左右。
该部分anchor内容参考于:
3、在ROI Pooling上做文章,文章SINet: A Scale-Insensitive Convolutional Neural Network for Fast Vehicle Detection 认为小目标在pooling之后会导致物体结构失真,于是提出了新的Context-Aware RoI Pooling方法。
4、用生成对抗网络(GAN)来做小目标检测:Perceptual Generative Adversarial Networks for Small Object Detection。
1、从COCO上的统计图可以发现,小目标的个数多,占到了41.43%,但是含有小目标的图片只有51.82%,大目标所占比例为24.24%,但是含有大目标的图像却有82.28%。这说明有一半的图像是不含小目标的,大部分的小目标都集中在一些少量的图片中。这就导致在训练的过程中,模型有一半的时间是学习不到小目标的特性的。
此外,对于小目标,平均能够匹配的anchor数量为1个,平均最大的IoU为0.29,这说明很多情况下,有些小目标是没有对应的anchor或者对应的anchor非常少的,即使有对应的anchor,他们的IoU也比较小,平均最大的IoU也才0.29。
如上图,左上角是一个anchor示意图,右上角是一个小目标所对应的anchor,一共有只有三个anchor能够与小目标配对,且配对的IoU也不高。左下角是一个大目标对应的anchor,可以发现有非常多的anchor能够与其匹配。匹配的anchor数量越多,则此目标被检出的概率也就越大。
实现方法: 1、Oversampling :我们通过在训练期间对这些图像进行过采样来解决包含小对象的相对较少图像的问题(多用这类图片)。在实验中,我们改变了过采样率和研究不仅对小物体检测而且对检测中大物体的过采样效果
2、Copy-Pasting Strategies:将小物体在图片中复制多分,在保证不影响其他物体的基础上,增加小物体在图片中出现的次数(把小目标扣下来贴到原图中去),提升被anchor包含的概率。
如上图右下角,本来只有一个小目标,对应的anchor数量为3个,现在将其复制三份,则在图中就出现了四个小目标,对应的anchor数量也就变成了12个,大大增加了这个小目标被检出的概率。从而让模型在训练的过程中,也能够有机会得到更多的小目标训练样本。
具体的实现方式如下图:图中网球和飞碟都是小物体,本来图中只有一个网球,一个飞碟,通过人工复制的方式,在图像中复制多份。同时要保证复制后的小物体不能够覆盖该原来存在的目标。
网上有人说可以试一下lucid data dreaming Lucid Data Dreaming for Multiple Object Tracking ,这是一种在视频跟踪/分割里面比较有效的数据增强手段,据说对于小目标物体检测也很有效。
基于无人机拍摄图片的检测目前也是个热门研究点(难点是目标小,密度大)。 相关论文: The Unmanned Aerial Vehicle Benchmark: Object Detection and Tracking(数据集) Drone-based Object Counting by Spatially Regularized Regional Proposal Network Simultaneously Detecting and Counting Dense Vehicles from Drone Images Vision Meets Drones: A Challenge(数据集)
1: 2: 3: 4: 5: 6: 7:
对于目标检测方向并不是特别熟悉,本文记录一下RCNN, fast-RCNN, faster-RCNN, mask-RCNN这4篇有关目标检测的论文笔记和学习心得
论文名称:Rich feature hierarchies for accurate object detection and semantic segment
论文名称:Rich feature hierarchies for accurate object detection and semantic segment
论文:A Dual Weighting Label Assignment Scheme for Object Detection [图片上传失败...(imag
大学英语四级考试时间:通常情况下为每年6月份、12月份的第三个星期六。 注意事项: 一、考生必须按规定时间参加考试,在考试前打预备铃(上午8:45、下午2:45