目标检测与跟踪小论文

发布时间：2023-12-09 00:38:36

目标检测与跟踪小论文

小目标问题在物体检测和语义分割等视觉任务中一直是存在的一个难点，小目标的检测精度通常只有大目标的一半。

CVPR2019论文: Augmentation for small object detection 提到了一些应对小目标检测的方法，笔者结合这篇论文以及查阅其它资料，对小目标检测相关技巧在本文进行了部分总结。

小目标的定义：在MS COCO数据集中，面积小于 32*32 的物体被认为是小物体。

小目标难以检测的原因：分辨率低，图像模糊，携带的信息少。由此所导致特征表达能力弱，也就是在提取特征的过程中，能提取到的特征非常少，这不利于我们对小目标的检测。

1、由于小目标面积太小，可以放大图片后再做检测，也就是在尺度上做文章，如FPN（Feature Pyramid Networks for Object Detection），SNIP（An Analysis of Scale Invariance in Object Detection – SNIP)。

Feature-Fused SSD: Fast Detection for Small Objects, Detecting Small Objects Using a Channel-Aware Deconvolutional Network 也是在多尺度上做文章的论文。

2、在Anchor上做文章(Faster Rcnn，SSD, FPN都有各自的anchor设计)，anchor在设置方面需要考虑三个因素：

anchor的密度：由检测所用feature map的stride决定，这个值与前景阈值密切相关。

anchor的范围： RetinaNet中是anchor范围是32~512，这里应根据任务检测目标的范围确定，按需调整anchor范围，或目标变化范围太大如MS COCO，这时候应采用多尺度测试。

anchor的形状数量： RetinaNet每个位置预测三尺度三比例共9个形状的anchor，这样可以增加anchor的密度，但stride决定这些形状都是同样的滑窗步进，需考虑步进会不会太大，如RetinaNet框架前景阈值是时，一般anchor大小是stride的4倍左右。

该部分anchor内容参考于:

3、在ROI Pooling上做文章，文章SINet: A Scale-Insensitive Convolutional Neural Network for Fast Vehicle Detection 认为小目标在pooling之后会导致物体结构失真，于是提出了新的Context-Aware RoI Pooling方法。

4、用生成对抗网络(GAN)来做小目标检测：Perceptual Generative Adversarial Networks for Small Object Detection。

1、从COCO上的统计图可以发现，小目标的个数多，占到了，但是含有小目标的图片只有，大目标所占比例为，但是含有大目标的图像却有。这说明有一半的图像是不含小目标的，大部分的小目标都集中在一些少量的图片中。这就导致在训练的过程中，模型有一半的时间是学习不到小目标的特性的。

此外，对于小目标，平均能够匹配的anchor数量为1个，平均最大的IoU为，这说明很多情况下，有些小目标是没有对应的anchor或者对应的anchor非常少的，即使有对应的anchor，他们的IoU也比较小，平均最大的IoU也才。

如上图，左上角是一个anchor示意图，右上角是一个小目标所对应的anchor，一共有只有三个anchor能够与小目标配对，且配对的IoU也不高。左下角是一个大目标对应的anchor，可以发现有非常多的anchor能够与其匹配。匹配的anchor数量越多，则此目标被检出的概率也就越大。

实现方法： 1、Oversampling ：我们通过在训练期间对这些图像进行过采样来解决包含小对象的相对较少图像的问题（多用这类图片）。在实验中，我们改变了过采样率和研究不仅对小物体检测而且对检测中大物体的过采样效果

2、Copy-Pasting Strategies：将小物体在图片中复制多分，在保证不影响其他物体的基础上，增加小物体在图片中出现的次数（把小目标扣下来贴到原图中去），提升被anchor包含的概率。

如上图右下角，本来只有一个小目标，对应的anchor数量为3个，现在将其复制三份，则在图中就出现了四个小目标，对应的anchor数量也就变成了12个，大大增加了这个小目标被检出的概率。从而让模型在训练的过程中，也能够有机会得到更多的小目标训练样本。

具体的实现方式如下图：图中网球和飞碟都是小物体，本来图中只有一个网球，一个飞碟，通过人工复制的方式，在图像中复制多份。同时要保证复制后的小物体不能够覆盖该原来存在的目标。

网上有人说可以试一下lucid data dreaming Lucid Data Dreaming for Multiple Object Tracking ，这是一种在视频跟踪/分割里面比较有效的数据增强手段，据说对于小目标物体检测也很有效。

基于无人机拍摄图片的检测目前也是个热门研究点（难点是目标小，密度大）。相关论文： The Unmanned Aerial Vehicle Benchmark: Object Detection and Tracking（数据集） Drone-based Object Counting by Spatially Regularized Regional Proposal Network Simultaneously Detecting and Counting Dense Vehicles from Drone Images Vision Meets Drones: A Challenge（数据集）

1: 2: 3: 4: 5: 6: 7:

运动目标检测与跟踪算法研究视觉是人类感知自身周围复杂环境最直接有效的手段之一，而在现实生活中大量有意义的视觉信息都包含在运动中，人眼对运动的物体和目标也更敏感，能够快速的发现运动目标，并对目标的运动轨迹进行预测和描绘。随着计算机技术、通信技术、图像处理技术的不断发展，计算机视觉己成为目前的热点研究问题之一。而运动目标检测与跟踪是计算机视觉研究的核心课题之一，融合了图像处理、模式识别、人工智能、自动控制、计算机等众多领域的先进技术，在军事制导、视觉导航、视频监控、智能交通、医疗诊断、工业产品检测等方面有着重要的实用价值和广阔的发展前景。 1、国内外研究现状运动目标检测运动目标检测是指从序列图像中将运动的前景目标从背景图像中提取出来。根据运动目标与摄像机之间的关系，运动目标检测分为静态背景下的运动目标检测和动态背景下的运动目标检测。静态背景下的运动目标检测是指摄像机在整个监视过程中不发生移动；动态背景下的运动目标检测是指摄像机在监视过程中发生了移动，如平动、旋转或多自由度运动等。静态背景静态背景下的运动目标检测方法主要有以下几种：（1）背景差分法背景差分法是目前最常用的一种目标检测方法，其基本思想就是首先获得一个背景模型，然后将当前帧与背景模型相减，如果像素差值大于某一阈值，则判断此像素属于运动目标，否则属于背景图像。利用当前图像与背景图像的差分来检测运动区域，一般能够提供比较完整的特征数据，但对于动态场景的变化，如光照和外来无关事件的干扰等特别敏感。很多研究人员目前都致力于开发不同的背景模型，以减少动态场景变化对运动目标检测的影响。背景模型的建立与更新、阴影的去除等对跟踪结果的好坏至关重要。背景差分法的实现简单，在固定背景下能够完整地精确、快速地分割出运动对象。不足之处是易受环境光线变化的影响，需要加入背景图像更新机制，且只对背景已知的运动对象检测比较有效，不适用于摄像头运动或者背景灰度变化很大的情况。（2）帧间差分法帧间差分法是在连续的图像序列中两个或三个相邻帧间，采用基于像素的时间差分并阈值化来提取图像中的运动区域。帧间差分法对动态环境具有较强的自适应性，但一般不能完全提取出所有相关的特征像素点，在运动实体内部容易产生空洞现象。因此在相邻帧间差分法的基础上提出了对称差分法，它是对图像序列中每连续三帧图像进行对称差分，检测出目标的运动范围，同时利用上一帧分割出来的模板对检测出来的目标运动范围进行修正，从而能较好地检测出中间帧运动目标的形状轮廓。帧间差分法非常适合于动态变化的环境，因为它只对运动物体敏感。实际上它只检测相对运动的物体，而且因两幅图像的时间间隔较短，差分图像受光线变化影响小，检测有效而稳定。该算法简单、速度快，已得到广泛应用。虽然该方法不能够完整地分割运动对象，只能检测出物体运动变化的区域，但所检测出的物体运动信息仍可用于进一步的目标分割。（3）光流法光流法就充分的利用了图像自身所携带的信息。在空间中,运动可以用运动场描述,而在一个图像平面上,物体的运动往往是通过图像序列中图像灰度分布的不同来体现,从而使空间中的运动场转移到图像上就表示为光流场。所谓光流是指空间中物体被观测面上的像素点运动产生的瞬时速度场，包含了物体表面结构和动态行为等重要信息。基于光流法的运动目标检测采用了运动目标随时间变化的光流特性，由于光流不仅包含了被观测物体的运动信息，还携带了物体运动和景物三位结构的丰富信息。在比较理想的情况下,它能够检测独立运动的对象, 不需要预先知道场景的任何信息,可以很精确地计算出运动物体的速度,并且可用于动态场景的情况。但是大多数光流方法的计算相当复杂,对硬件要求比较高, 不适于实时处理,而且对噪声比较敏感,抗噪性差。并且由于遮挡、多光源、透明性及噪声等原因，使得光流场基本方程——灰度守恒的假设条件无法满足，不能正确求出光流场，计算方也相当复杂，计算量巨大，不能满足实时的要求。动态背景动态背景下的运动目标检测由于存在着目标与摄像机之间复杂的相对运动，检测方法要比静态背景下的运动目标检测方法复杂。常用的检测方法有匹配法、光流法以及全局运动估计法等。 2、运动目标跟踪运动目标跟踪是确定同一物体在图像序列的不同帧中的位置的过程。近年来出现了大批运动目标跟踪方法，许多文献对这些方法进行了分类介绍，可将目标跟踪方法分为四类：基于区域的跟踪、基于特征的跟踪、基于活动轮廓的跟踪、基于模型的跟踪，这种分类方法概括了目前大多数跟踪方法，下面用这种分类方法对目前的跟踪方法进行概括介绍。 (1)基于区域的跟踪基于区域的跟踪方法基本思想是：首先通过图像分割或预先人为确定提取包含目标区域的模板，并设定一个相似性度量，然后在序列图像中搜索目标，把度量取极值时对应的区域作为对应帧中的目标区域。由于提取的目标模板包含了较完整的目标信息，该方法在目标未被遮挡时，跟踪精度非常高，跟踪非常稳定，但通常比较耗时，特别是当目标区域较大时，因此一般应用于跟踪较小的目标或对比度较差的目标。该方法还可以和多种预测算法结合使用，如卡尔曼预测、粒子预测等，以估计每帧图像中目标的位置。近年来，对基于区域的跟踪方法关注较多的是如何处理运动目标姿态变化引起的模板变化时的情况以及目标被严重遮挡时的情况。 (2)基于特征的跟踪基于特征的跟踪方法基本思想是：首先提取目标的某个或某些局部特征，然后利用某种匹配算法在图像序列中进行特征匹配，从而实现对目标的跟踪。该方法的优点是即使目标部分被遮挡，只要还有一部分特征可以被看到，就可以完成跟踪任务，另外，该方法还可与卡尔曼滤波器结合使用，实时性较好，因此常用于复杂场景下对运动目标的实时、鲁棒跟踪。用于跟踪的特征很多，如角点边缘、形状、纹理、颜色等，如何从众多的特征中选取最具区分性、最稳定的特征是基于特征的跟踪方法的关键和难点所在。 (3)基于活动轮廓的跟踪基于活动轮廓的跟踪方法基本思想是：利用封闭的曲线轮廓表达运动目标，结合图像特征、曲线轮廓构造能量函数，通过求解极小化能量实现曲线轮廓的自动连续更新，从而实现对目标的跟踪。自Kass在1987年提出Snake模型以来，基于活动轮廓的方法就开始广泛应用于目标跟踪领域。相对于基于区域的跟踪方法，轮廓表达有减少复杂度的优点，而且在目标被部分遮挡的情况下也能连续的进行跟踪，但是该方法的跟踪结果受初始化影响较大，对噪声也较为敏感。 (4)基于模型的跟踪基于模型的跟踪方法基本思想是：首先通过一定的先验知识对所跟踪目标建立模型，然后通过匹配跟踪目标，并进行模型的实时更新。通常利用测量、CAD 工具和计算机视觉技术建立模型。主要有三种形式的模型，即线图模型、二维轮廓模型和三维立体模型口61，应用较多的是运动目标的三维立体模型，尤其是对刚体目标如汽车的跟踪。该方法的优点是可以精确分析目标的运动轨迹，即使在目标姿态变化和部分遮挡的情况下也能够可靠的跟踪，但跟踪精度取决于模型的精度，而在现实生活中要获得所有运动目标的精确模型是非常困难的。目标检测算法，至今已提出了数千种各种类型的算法，而且每年都有上百篇相关的研究论文或报告发表。尽管人们在目标检测或图像分割等方面做了许多研究，现己提出的分割算法大都是针对具体问题的，并没有一种适合于所有情况的通用算法。目前，比较经典的运动目标检测算法有：双帧差分法、三帧差分法(对称差分法)、背景差法、光流法等方法，这些方法之间并不是完全独立，而是可以相互交融的。目标跟踪的主要目的就是要建立目标运动的时域模型，其算法的优劣直接影响着运动目标跟踪的稳定性和精确度，虽然对运动目标跟踪理论的研究已经进行了很多年，但至今它仍然是计算机视觉等领域的研究热点问题之一。研究一种鲁棒性好、精确、高性能的运动目标跟踪方法依然是该研究领域所面临的一个巨大挑战。基于此目的，系统必须对每个独立的目标进行持续的跟踪。为了实现对复杂环境中运动目标快速、稳定的跟踪，人们提出了众多算法，但先前的许多算法都是针对刚体目标，或是将形变较小的非刚体近似为刚体目标进行跟踪，因而这些算法难以实现对形状变化较大的非刚体目标的正确跟踪。根据跟踪算法所用的预测技术来划分，目前主要的跟踪算法有：基于均值漂移的方法、基于遗传算法的方法、基于Kalman滤波器的方法、基于Monto Carlo的方法以及多假设跟踪的方法等。运动检测与目标跟踪算法模块运动检测与目标跟踪算法模块与目标跟踪一、运动检测算法 1.算法效果算法效果总体来说，对比度高的视频检测效果要优于对比度低的视频。算法可以比较好地去除目标周围的浅影子，浅影的去除率在 80%以上。去影后目标的完整性可以得到较好的保持，在 80%以上。在对比度比较高的环境中可以准确地识别较大的滞留物或盗移物。从对目标的检测率上来说，对小目标较难进行检测。一般目标小于 40 个像素就会被漏掉。对于对比度不高的目标会检测不完整。总体上来说，算法在对比度较高的环境中漏检率都较低，在以下，在对比度不高或有小目标的场景下漏检率在 6%以下。精细运动检测的目的是在较理想的环境下尽量精确地提取目标的轮廓和区域，以供高层进行应用。同时在分离距离较近目标和进行其它信息的进一步判断也具有一定的优势。反映算法优缺点的详细效果如下所示：去影子和完整性效果好公司内视频左边的为去影前，右边的为去影后的结果，可以看出在完整性和去影率上都有所突出。这两个视频的共周特点城市交通是，影子都是浅影子，视频噪声不太明显。目标与背景的对比度比较高。效果差这两个视频的特点是影子都是深影子。虽然影子没有去掉，但是物体的完整性是比较高的。主要原因就是场景的对路口，上午十点比度比较高。滞留物检测和稳定性效果好会议室盗移效果好的原因，一是盗移或滞留目标与背景对比度较大，二是目标本身尺寸较大。另外盗移物或滞留物在保持各自的状态期间不能受到光照变化或其它明显运动目标的干扰，要不然有可能会造成判断的不稳定。效果差会议室遗留物大部分时间内，滞留的判断都是较稳定的，但是在后期出现了不稳定。主要原因是目标太小的原故。因此在进行滞留物判断时，大目标，对比度较高的环境有利于判断的稳定性和准确性。漏检率效果好城市交通在对比度高的环境下，目标相对都较大的情况下（大于 40 个像素）可以很，稳定的检测出目标。在这种条件下的漏检率通常都是非常低的，在以下。效果差行人－傍晚和“行人”目录下的其它昏暗条件下的视频在对比度较低的情况下，会造成检测结果不稳定。漏检率较高。主要原因是由于去影子造成的。这种对比度下的漏检率一般在 6%以下。除了对比度低是造成漏检的原因外，过小的目标也会造成漏检，一般是 40 个像素以下的目标都会被忽略掉。算法效率内存消耗（单位：b） .MD_ISRAM_data .MD_ISRAM_bss .MD_SDRAM_data 0x470 0x24 0x348 .MD_SDRAM_bss .MD_text 0x1a8480 0x6d40 速度 ms 运动区域占 2/3 左右时 CPU 占用率一帧耗时 Max:57% Min: Avg: Max:23 Min: Avg:15 运动区域占 1/3 左右时 Max:45% Min: Avg:20% Max:18 Min: Avg:8 检测参数说明检测参数说明检测到的滞留物或盗走物的消失时间目前分别设定在 200 帧和 100 帧，可以通过参数来自行调整。目前目标与背景的差异是根据局部光照强度所决定的，范围在 4 个像素值以上。目前参数设置要求目标大小要在 20 个像素以上才能被检测到，可以通过参数来自行调整。目标阴影的去除能力是可以调整的，目前的参数设置可以去除大部分的浅影子和较小的光照变化。适用环境推荐光照条件较好（具有一定的对比度）的室内环境或室外环境。不易用它去检测过小的目标，比如小于 40 个像素的目标。室外环境不易太复杂。输出目标为精细轮廓目标，可以为后面高层应用提供良好的信息。二、目标跟踪稳定运行环境要求此版本跟踪算法与运动检测算法紧密结合，对相机的架设和视频的背景环境和运动目标数量运动方式有一定要求：背景要求：由于运动跟踪是基于运动检测的结果进行的，所以对背景的要求和运动检测一样，背景要求：运动目标相对于背景要有一定反差。运动目标：由于运动检测中，对较小的目标可能过滤掉。所以运动目标的大小要符合运动检运动目标：测的要求。运动目标的速度不能太大，要保证前后帧运动目标的重合面积大于 10 个像素。此阈值可修改(建议不要随意修改，过小，可能把碎片当成原目标分裂出来的小目标，过大，可能失去跟踪。当然可试着调节以适应不同场景)。该算法对由于运动检测在地面上产生的碎片抗干扰性比较差，运动目标和碎片相遇时，容易发生融合又分离的现象，造成轨迹混乱。消失目标和新生目标很容易当成同一目标处理，所以可能出现一个新目标继承新生目标的轨迹。运动方式：运动目标的最大数量由外部设定。但运动跟踪对运动目标比较稀疏的场景效果比运动方式：较好。算法对由于运动检测在运动目标上产生的碎片有一定的抗干扰。算法没对物体的遮挡进行处理。对于两运动目标之间的遮挡按融合来处理。拍摄角度：拍摄角度：拍摄视野比较大，且最好是俯视拍摄。

能不能给我发一份呢？

目标检测与跟踪论文笔记

经典方法：背景差分法

效果比较好的方法是：无参估计背景减除法——ViBe. 算法优点：思想简单，易于实现；样本衰减最优；运算效率高算法缺点：把阴影当做前景；运动目标不完整。

优点：算法实现简单，程序设计复杂度低，运行速度快；动态环境自适应性强，对场景光线变化不敏感。

优点：实时性高

将单个目标的跟踪问题看作是MDP过程中的策略决定问题，从而多目标跟踪就变成了多个MDP的问题。

用MDP来建模一个物体，主要包括四个成分：

应用实例 1 ：视频监控

应用实例 2 ：导弹飞机识别 (1). 首先对飞机红外图像做处理，包括平移旋转缩放等等模拟飞机的运动，得到连续帧图像作为实验样本。 (2). 使用聚类算法判断红外图像中天空背景的复杂度，然后采用分割算法分割出飞机；如果天空背景比较简单，就使用OTSU算法对飞机及逆行分割。 (3). 提取傅里叶描述子作为研究对象的特征。 (4). 最后使用目标跟踪算法。

在上一步，完成了网络的创建和数据的预处理。接下来准备对这个网络进行训练，通过训练得到一个可以用于目标检测的深度学习网络模型。这里首先要确定上一步输出的模型和数据集的存放路径是可用的，否则训练环节会因为缺少输入而报错。 Halcon的参考样例详述了这一过程，这里做一些学习记录。设置输入路径，主要是两个，一是上一步的预训练的以.hdl结尾的模型，另一个是数据集和样本数据字典的存放路径。输出路径也是两个，一是存放最佳评估模型的路径，一个是最终训练完成的模型路径。首先用check_files_availability验证预处理模型和数据集路径是否正确。没有问题的话可以开始读取。使用read_dl_model读取前一步初始化后的网络模型，得到模型的句柄DLModelHandle。接着用read_dict读取预处理后的数据集，得到数据字典句柄DLDataset。设置模型参数主要通过set_dl_model_param算子，以修改属性值的方式改变关键参数的值。该算子原型如下： set_dl_model_param( : : DLModelHandle, GenParamName, GenParamValue : ) 输入三个参数：注意，如果将'runtime'的值改为了’gpu’，则要确定cuDNN和cuBLAS已经成功安装了。通过set_dl_model_param算子，可以将本文开头提到的设置的模型的基本参数传递给模型句柄DLModelHandle。如将'batch_size'设为之前的batch_size的值等等。 1）创建训练参数。这里使用create_dl_train_param算子创建一个训练参数的字典，用于存放训练参数和训练效果可视化的参数。这些参数可以做个说明： 2）训练网络接下来是最耗时的部分，即使用train_dl_model算子进行深度学习网络模型的训练。算子如下： train_dl_model( : : DLDataset, DLModelHandle, TrainParam, StartEpoch : TrainResults, TrainInfos,EvaluationInfos) 前四个参数是输入参数，后三个是输出参数。接着到了第三步，即验证模型的部分。

本文作为OC-SORT的论文阅读记录，中间可能会加入自己的看法，由于是tracking这块的初学者，文中若有错误的认识麻烦读者帮忙修正。

OC-SORT是来自 CVPR2022 的一篇文章，采用的范式是MOT中的TBD（Tracking by Detection）。虽然学术界中JDE的研究越来越多，2022年开始也有很多基于Transformer的方法效果非常不错，但是目前工业界还是使用TBD这种方式比较多，类似还有Bytetrack等等，基本都可以满足跟踪的需求。

TBD范式中比较出名的一系列就是SORT系列，这其中笔者了解的有最初的鼻祖SORT，还有后期衍生出来的DeepSORT, StrongSORT, StrongSORT++, ByteTrack，还有本文要讨论的OC-SORT。

关于SORT系列方法具体解析可以参考下面的博客和帖子，个人认为写的很详细和易懂，方便随时查阅：

通过回顾SORT方法，作者提出三个问题作为方法设计的动机：

文章提出三项改进：

这种在线平滑方式通过当前帧检测到的结果和之前帧的轨迹位置，来生成更多的虚拟点，以此辅助KF做预测。具体通过⼀个虚拟的轨迹对参数进行在线平滑，回溯到目标检测丢失的时候，可以修复在时间间隔内累积的误差。

在计算IOU度量矩阵的时候，把速度/方向计算成代价矩阵放在原来的度量矩阵中，（个人理解类似模型训练的trick）：

这部分看的不是很懂…

OCR用于恢复轨迹，这部分依赖于检测值而不是错误的估计值。当轨迹丢失后检测目标再出现时，直接将丢失轨迹时检测值和重新出现的检测值相关联以恢复轨迹。

目标检测跟踪论文笔记翻译

论文原文：

YOLO（you only look once）是继RCNN、faster-RCNN之后，又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下，解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比：

如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测，那么yolo则是更进一步，将目标区域预测与目标类别判断整合到单个神经网络模型中。各检测算法结构见下图：

每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息，其值是这样计算的：

其中如果有object落在一个grid cell里，第一项取1，否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

每个bounding box要预测(x, y, w, h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。即SxS个网格，每个网格除了要预测B个bounding box外，还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。（注意：class信息是针对每个网格的，即一个网格只预测一组类别而不管里面有多少个bounding box，而confidence信息是针对每个bounding box的。）

举例说明: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示：

在test的时候，每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box的class-specific confidence score:

等式左边第一项就是每个网格预测的类别信息，第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率，也有该box准确度的信息。

得到每个box的class-specific confidence score以后，设置阈值，滤掉得分低的boxes，对保留的boxes进行NMS（非极大值抑制non-maximum suppresssion）处理，就得到最终的检测结果。

1、每个grid因为预测两个bounding box有30维（30=2*5+20），这30维中，8维是回归box的坐标，2维是box的confidence，还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间，w,h除以图像的width和height也归一化到0-1之间。

2、对不同大小的box预测中，相比于大box预测偏一点，小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题，作者用了一个比较取巧的办法，就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解，小box的横轴值较小，发生偏移时，反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。

3、一个网格预测多个box，希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大，就负责哪个。这种做法称作box predictor的specialization。

4、损失函数公式见下图：

在实现中，最主要的就是怎么设计损失函数，坐标（x,y,w,h），confidence，classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足：

解决方法：

只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候，才会对box的coordinate error进行惩罚，而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。

作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段，采用网络中的前20卷积层，外加average-pooling层和全连接层。模型训练了一周，获得了top-5 accuracy为（ImageNet2012 validation set），与GoogleNet模型准确率相当。

然后，将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层，提高了模型输入分辨率（224×224->448×448）。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation，其它层使用 leaky rectified linear。

作者采用sum-squared error为目标函数来优化，增加bounding box loss权重，减少置信度权重，实验中，设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮，batch size为64，动量为，学习速率延迟为。Learning schedule为：第一轮，学习速率从缓慢增加到（因为如果初始为高学习速率，会导致模型发散）；保持速率到75轮；然后在后30轮中，下降到；最后30轮，学习速率为。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为；data augmentation包括：random scaling，translation，adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点：

1、 YOLO检测物体非常快

因为没有复杂的检测流程，只需要将图像输入到神经网络就可以得到检测结果，YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且，YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、 YOLO可以很好的避免背景错误，产生false positives

不像其他物体检测系统使用了滑窗或region proposal，分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息，因此YOLO在检测物体时能很好的利用上下文信息，从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比，YOLO的背景错误不到Fast-R-CNN的一半。

3、 YOLO可以学到物体的泛化特征

当YOLO在自然图像上做训练，在艺术作品上做测试时，YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征，从而迁移到其他领域。

尽管YOLO有这些优点，它也有一些缺点：

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好（尤其是密集的小物体，因为一个栅格只能预测2个物体）。

本文作为OC-SORT的论文阅读记录，中间可能会加入自己的看法，由于是tracking这块的初学者，文中若有错误的认识麻烦读者帮忙修正。

关于SORT系列方法具体解析可以参考下面的博客和帖子，个人认为写的很详细和易懂，方便随时查阅：

通过回顾SORT方法，作者提出三个问题作为方法设计的动机：

文章提出三项改进：

在计算IOU度量矩阵的时候，把速度/方向计算成代价矩阵放在原来的度量矩阵中，（个人理解类似模型训练的trick）：

这部分看的不是很懂…

目标检测与追踪论文题目

能不能给我发一份呢？

论文名称：Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间：2014年论文地址：针对问题：从Alexnet提出后，作者等人思考如何利用卷积网络来完成检测任务，即输入一张图，实现图上目标的定位（目标在哪）和分类（目标是什么）两个目标，并最终完成了RCNN网络模型。创新点： RCNN提出时，检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢，作者采用的是Selective Search候选区域提取算法，来获得当前输入图上可能包含目标的不同图像块，再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。参考博客：。论文题目：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间：2014年论文地址：针对问题：该论文讨论了，CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后，在网络后端组织两组卷积或全连接层，一组用于实现定位，输出当前图像上目标的最小外接矩形框坐标，一组用于分类，输出当前图像上目标的类别信息。也是以此为起点，检测网络出现基础主干网络(backbone)+分类头或回归头（定位头）的网络设计模式雏形。创新点：在这篇论文中还有两个比较有意思的点，一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的，而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制，那用1x1卷积来替换FC层，是否可行呢？作者在测试时通过将全连接层替换为1x1卷积核证明是可行的；二是提出了offset max-pooling，也就是对池化层输入特征不能整除的情况，通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练，然后切换分类头为回归头，再训练回归头的参数，最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。参考博客：论文题目：Scalable Object Detection using Deep Neural Networks 提出时间：2014年论文地址：针对问题：既然CNN网络提取的特征可以直接用于检测任务（定位+分类），作者就尝试将目标框（可能包含目标的最小外包矩形框）提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。创新点：本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心，（800个anchor box）然后学习预测不考虑目标类别的二分类网络，背景or前景。用到了多尺度下的检测。参考博客：论文题目：DeepBox: Learning Objectness with Convolutional Networks 提出时间：2015年ICCV 论文地址：主要针对的问题：本文完成的工作与第三篇类似，都是对目标框提取算法的优化方案，区别是本文首先采用自底而上的方案来提取图像上的疑似目标框，然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序；而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点：本文作者想通过CNN学习输入图像的特征，从而实现对输入网络目标框是否为真实目标的情况进行计算，量化每个输入框的包含目标的可能性值。参考博客：论文题目：AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间：2015年ICCV 论文地址：主要针对的问题：对检测网络的实现方案进行思考，之前的执行策略是，先确定输入图像中可能包含目标位置的矩形框，再对每个矩形框进行分类和回归从而确定目标的准确位置，参考RCNN。那么能否直接利用回归的思路从图像的四个角点，逐渐得到目标的最小外接矩形框和类别呢？创新点：通过从图像的四个角点，逐步迭代的方式，每次计算一个缩小的方向，并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。参考博客：论文题目：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间：2014年论文地址：针对问题：如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络，在处理过程中就造成了图像块信息的损失。在实际的场景中，输入网络的目标尺寸很难统一，而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点：作者提出的SPPnet中，通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸，在训练的时候，池化的操作还是通过滑动窗口完成的，池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。参考博客：论文题目：Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间：2015年论文地址：针对问题：既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位，本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点：作者通过对输入网络的region进行一定的处理（通过数据增强，使得网络利用目标周围的上下文信息得到更精准的目标框）来增加网络对目标回归框的精度。具体的处理方式包括：扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置，使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性，从而提高了回归框的精度。参考博客：论文题目：Fast-RCNN 提出时间：2015年论文地址：针对问题： RCNN中的CNN每输入一个图像块就要执行一次前向计算，这显然是非常耗时的，那么如何优化这部分呢？创新点：作者参考了SPPNet（第六篇论文），在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸，从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图，再将原图上用Selective Search算法得到的目标框映射到特征图上，避免了特征的重复提取。参考博客：论文题目：DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间：2015年论文地址：主要针对的问题：本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文，作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。创新点：作者在不同的激活层上以滑动窗口的方式生成了假设，并表明最终的卷积层可以以较高的查全率找到感兴趣的对象，但是由于特征图的粗糙性，定位性很差。相反，网络的第一层可以更好地定位感兴趣的对象，但召回率降低。论文题目：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间：2015年NIPS 论文地址：主要针对的问题：由multibox（第三篇）和DeepBox（第四篇）等论文，我们知道，用CNN可以生成目标待检测框，并判定当前框为目标的概率，那能否将该模型整合到目标检测的模型中，从而实现真正输入端为图像，输出为最终检测结果的，全部依赖CNN完成的检测系统呢？创新点：将当前输入图目标框提取整合到了检测网络中，依赖一个小的目标框提取网络RPN来替代Selective Search算法，从而实现真正的端到端检测算法。参考博客：

篮球教育对青少年的影响

篮球教会我的不只是篮球NBA教会我的不只是篮球阐述篮球带来的快乐。。最主要的是篮球的某种精神例如：有个镜头我永远都忘不了2001年总决赛第三场球完了后，小艾和科比在快进更衣室门口相遇，当时小艾的眼神足以杀死人，科比抬着高傲的头颅看都不看小艾一眼，小艾主动上去和科比握手，科比装作没看见，头也不回地走了，那一刻小艾显得多么无奈。—— 从那一刻起，科比已经输了，不是输在球技上，而是输在做人上. 。科比可以拿着三枚总冠军戒指 81分记录向小艾炫耀，但是，小艾的精神境界是科比一世都无法企及的。他教会我一件事：“只要认为是对的，即便是对抗全世界，不要被那些舆论所影响、击倒，要有勇气战斗下去。他教会我只要坚持做自己，即便是被人认为是「叛逆」，也要战斗下去。你说他是我的神也好，佛也好，我服膺的是他这种精神，这是一种信仰。有个人站在你面前，他就是这麼做著，他始终忠於他的信念。所谓「武士精神」，亦不过如此，而这正是我所信奉的。我看NBA十多年，不曾带给我这种感动。这种「我要打十个」的气魄，不是只有「英雄主义」而已，而是战斗到底的决心。那些酸AI的人们，他们不懂，因为他们不会、也不敢有这种体验，他们更不会了解，许许多多喜欢.的人，到底为什麼喜欢他？这不是靠长得帅就可以得到的拥护。”2004年一个18岁的男孩（凯文约翰逊）在街上被一群16-20岁的人围住抢劫他们抢走凯文身上财务然后命令凯文脱掉身上穿的艾弗森3号球衣凯文誓死不从紧紧保护着球衣不让他们抢走那群歹徒拿出手枪凯文依旧不让他们把艾的球衣从身上抢走一声枪响凯文被后面一个歹徒击中脖子球衣还是让那伙歹徒抢走两年过去一天报纸披露一个孩子的妈妈让医院使用安乐死结束她孩子的生命那个孩子就凯文约翰逊就这样这件事被媒体报道出来艾弗森也知道这件事他很震惊他亲自去那座医院随后艾给凯文安排葬礼后来凯文母亲说凯文下葬的时候是穿着艾弗森送的崭新球衣入土的别人问你儿子这样做不值得凯文妈妈说这是我儿子的选择你们不知道凯文多么爱艾弗森我不反对我儿子去追艾弗森在艾弗森身上我儿子学到的比我们教的更多

目标检测追踪论文

论文原文：

其中如果有object落在一个grid cell里，第一项取1，否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

举例说明: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示：

在test的时候，每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box的class-specific confidence score:

4、损失函数公式见下图：

解决方法：

作者采用sum-squared error为目标函数来优化，增加bounding box loss权重，减少置信度权重，实验中，设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为；data augmentation包括：random scaling，translation，adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点：

1、 YOLO检测物体非常快

2、 YOLO可以很好的避免背景错误，产生false positives

3、 YOLO可以学到物体的泛化特征

尽管YOLO有这些优点，它也有一些缺点：

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好（尤其是密集的小物体，因为一个栅格只能预测2个物体）。

一种用于三维空间杂波环境机动目标跟踪的数据互联方法，《电子与信息学报》2009年第4期被动传感器阵列中基于粒子滤波的目标跟踪，《电子与信息学报》2009年第4期一种新的嵌入式Linux高性能定时器实现方法，《信号处理》2009年第3期一种新的红外弱小目标检测与跟踪算法，《信号处理》2008年第6期被动传感器网基于修正Riccati方程的系统优化设计，《信号处理》2008年第5期基于SIS框架和蚁群算法的非线性多目标跟踪，《电子与信息学报》2008年第9期基于人类视觉系统的自适应数字水印算法，《上海交通大学学报》2008年第7期一种基于电子签章的二值图像数字水印算法，《信号处理》2008年第3期基于身份的网络化制造安全协同商务平台，《计算机工程》2008年第13期基于Clifford代数传感器网络覆盖理论的路径分析，《电子学报》2007年第B12期传感器网络高阶模糊覆盖分析，《电子学报》2007年第B12期传感器网络最佳情况模糊覆盖问题研究，《电子学报》2007年第B12期一种基于蚁群算法的多目标跟踪数据关联方法，《电子学报》2008年第3期基于数据仓库的投资决策支持系统设计研究，《微电子学与计算机》2008年第2期量子球壳聚类，《西安电子科技大学学报》2008年第1期基于身份的安全邮件认证体系设计与分析，《计算机科学》2008年第2期异类传感器系统目标快速定位方法，《系统工程与电子技术》2007年第12期一种基于并行计算熵迁移策略的多分辨DOM数据生成算法，《中国科学技术大学学报》2007年第12期基于模糊Hough变换的被动传感器系统航迹起始方法，《系统工程与电子技术》2007年第11期THz信号处理与分析的研究现状和发展展望，《电子学报》2007年第10期模糊数据互联滤波器及其在机动目标跟踪中的应用，《系统仿真学报》2007年第20期分布式异类传感器网异步采样下的航迹起始算法，《系统工程与电子技术》2007年第9期机动目标跟踪中数据互联新方法，《电子与信息学报》2007年第10期一种新的视界覆盖遗传算法，《西安电子科技大学学报》2007年第5期基于运动特征的远距离红外目标检测方法，《电子与信息学报》2007年第8期被动传感器网基于模糊综合贴近度的航迹起始，《电子学报》2007年第8期基于IBE的跨网络电子公文安全交换平台，《微计算机信息》2007年第18期一种基于身份的无可信第三方签名方案，《深圳大学学报：理工版》2007年第3期基于图像梯度场序列的双向GDIM光流计算方法，《电子学报》2007年第7期一种基于身份的短数字签名方案，《微计算机信息》2007年第21期分布式异类传感器网Hough变换航迹起始算法，《深圳大学学报：理工版》2007年第2期基于DWT和DCT域的二值图像数字水印算法，《计算机与数字工程》2007年第3期基于并行计算熵的同构集群负载均衡算法，《深圳大学学报：理工版》2007年第1期基于unscented粒子滤波的红外弱小目标跟踪，《系统工程与电子技术》2007年第1期一种空域DCT与时域DWT相结合的鲁棒视频数字水印算法，《中国体视学与图像分析》2006年第4期图像插值方法对互信息局部极值的影响分析，《电子与信息学报》2006年第10期网状被动传感器系统优化设计，《系统工程与电子技术》2006年第12期基于小波变换和目标运动特性的红外弱小目标检测，《红外》2006年第9期基于小波变换的红外弱小目标检测新方法，《红外技术》2006年第7期在线CA的安全增强方案研究，《计算机工程》2006年第11期基于ADSP—BF561车载多媒体系统，《现代电子技术》2006年第3期空间分析中视界覆盖问题的研究，《系统工程与电子技术》2005年第11期模糊观测数据的关联和目标跟踪，《信号处理》2005年第4期从航空影像中自动提取高层建筑物，《计算机学报》2005年第7期城市航空影像中基于模糊Retinex的阴影消除，《电子学报》2005年第3期一种新的自适应图像模糊增强算法，《西安电子科技大学学报》2005年第2期基于OAR模型的航空影像高层建筑自动提取，《深圳大学学报：理工版》2005年第1期红外热图像序列中基于人体模型的目标头部定位方法，《激光与红外》2005年第2期直线Snakes及其在建筑物提取中的应用，《西安电子科技大学学报》2005年第1期网状被动传感器系统视线交叉目标定位方法，《电子与信息学报》2005年第1期一种新的道路描述子：对称边缘方向直方图，《电子学报》2005年第1期基于对称边缘方向直方图自动提取主要道路，《中国体视学与图像分析》2005年第2期分布式被动传感器网异步采样下的机动目标跟踪，《系统仿真学报》2005年第6期一种基于频带一致性的多模态图像校准算法，《通信学报》2005年第4期基于模糊熵的自适应图像多层次模糊增强算法，《电子学报》2005年第4期一种安全增强的基于椭圆曲线可验证门限签名方案，《计算机研究与发展》2005年第4期密码学与数字水印在电子印章中的应用，《微机发展》2004年第11期一种安全实用的电子公文系统设计与实现，《现代电子技术》2004年第21期基于DSP的PCI图像采集卡设计，《现代电子技术》2004年第4期基于DSP组建短波电台无线数据传输网络的系统设计，《电子设计应用》2004年第2期基于直方图的自适应高斯噪声滤波器，《系统工程与电子技术》2004年第1期短波电台无线数据传输网络的组建，《现代电子技术》2004年第3期半抑制式模糊C-均值聚类算法，《中国体视学与图像分析》2004年第2期基于模糊推理的自动多级图像分割，《中国体视学与图像分析》2004年第1期航空影像中立交桥的自动检测，《中国体视学与图像分析》2004年第1期网状被动传感器系统航迹初始状态估计，《信号处理》2004年第6期被动传感器系统分层快速关联算法，《电子学报》2004年第12期一种基于模糊运算的多目标多传感器跟踪算法，《系统工程与电子技术》2004年第11期异步被动传感器系统模糊Hough变换航迹起始算法，《系统工程与电子技术》2004年第11期窗户纹理的时频描述及其在建筑物提取中的应用，《中国图象图形学报：A辑》2004年第10期基于模糊熵的支撑矢量预选取方法，《复旦学报：自然科学版》2004年第5期基于物方几何约束提取建筑物垂直边缘，《中国图象图形学报：A辑》2004年第9期分布式网状被动传感器系统定位误差分析，《西安电子科技大学学报》2004年第5期分布式网状被动传感器系统量测数据关联，《系统工程与电子技术》2004年第12期基于核方法的分类型属性数据集模糊聚类算法，《华南理工大学学报：自然科学版》2004年第9期基于模糊决策的密集多回波环境下航迹起始算法，《雷达与对抗》2004年第3期红外传感器阵列基于信息冗余性的目标定位，《系统工程与电子技术》2004年第8期基于核方法的模糊聚类算法，《西安电子科技大学学报》2004年第4期一种用于模式识别的多色Voronoi图，《系统工程与电子技术》2004年第7期基于DSP的短波电台无线数据传输网络实现，《深圳大学学报：理工版》2004年第3期基于直方图的自适应图像去噪滤波器，《电子学报》2004年第7期自适应模糊Hough变换，《电子学报》2004年第6期基于主动秘密共享的安全容忍入侵方案，《兰州交通大学学报》2004年第1期基于模糊熵的多值图像恢复方法，《西安电子科技大学学报》2004年第2期

索引序列
目标检测与跟踪小论文
目标检测与跟踪论文笔记
目标检测跟踪论文笔记翻译
目标检测与追踪论文题目
目标检测追踪论文
返回顶部

目标检测与跟踪小论文