yolo知网论文

发布时间：2023-03-08 01:46

yolo知网论文

论文原文：

YOLO（you only look once）是继RCNN、faster-RCNN之后，又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下，解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比：

如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测，那么yolo则是更进一步，将目标区域预测与目标类别判断整合到单个神经网络模型中。各检测算法结构见下图：

每个网格要预测B个bounding box，每个bounding box除了要回归自身的位置之外，还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息，其值是这样计算的：

其中如果有object落在一个grid cell里，第一项取1，否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

每个bounding box要预测(x, y, w, h)和confidence共5个值，每个网格还要预测一个类别信息，记为C类。即SxS个网格，每个网格除了要预测B个bounding box外，还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。（注意：class信息是针对每个网格的，即一个网格只预测一组类别而不管里面有多少个bounding box，而confidence信息是针对每个bounding box的。）

举例说明: 在PASCAL VOC中，图像输入为448x448，取S=7，B=2，一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示：

在test的时候，每个网格预测的class信息和bounding box预测的confidence信息相乘，就得到每个bounding box的class-specific confidence score:

等式左边第一项就是每个网格预测的类别信息，第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率，也有该box准确度的信息。

得到每个box的class-specific confidence score以后，设置阈值，滤掉得分低的boxes，对保留的boxes进行NMS（非极大值抑制non-maximum suppresssion）处理，就得到最终的检测结果。

1、每个grid因为预测两个bounding box有30维（30=2*5+20），这30维中，8维是回归box的坐标，2维是box的confidence，还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间，w,h除以图像的width和height也归一化到0-1之间。

2、对不同大小的box预测中，相比于大box预测偏一点，小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题，作者用了一个比较取巧的办法，就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解，小box的横轴值较小，发生偏移时，反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。

3、一个网格预测多个box，希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大，就负责哪个。这种做法称作box predictor的specialization。

4、损失函数公式见下图：

在实现中，最主要的就是怎么设计损失函数，坐标（x,y,w,h），confidence，classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足：

解决方法：

只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候，才会对box的coordinate error进行惩罚，而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。

作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段，采用网络中的前20卷积层，外加average-pooling层和全连接层。模型训练了一周，获得了top-5 accuracy为0.88（ImageNet2012 validation set），与GoogleNet模型准确率相当。

然后，将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层，提高了模型输入分辨率（224×224->448×448）。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation，其它层使用 leaky rectified linear。

作者采用sum-squared error为目标函数来优化，增加bounding box loss权重，减少置信度权重，实验中，设定为\lambda _{coord} =5 and\lambda _{noobj}=0.5 。

作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮，batch size为64，动量为0.9，学习速率延迟为0.0005。Learning schedule为：第一轮，学习速率从0.001缓慢增加到0.01（因为如果初始为高学习速率，会导致模型发散）；保持0.01速率到75轮；然后在后30轮中，下降到0.001；最后30轮，学习速率为0.0001。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为0.5；data augmentation包括：random scaling，translation，adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点：

1、 YOLO检测物体非常快

因为没有复杂的检测流程，只需要将图像输入到神经网络就可以得到检测结果，YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且，YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、 YOLO可以很好的避免背景错误，产生false positives

不像其他物体检测系统使用了滑窗或region proposal，分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息，因此YOLO在检测物体时能很好的利用上下文信息，从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比，YOLO的背景错误不到Fast-R-CNN的一半。

3、 YOLO可以学到物体的泛化特征

当YOLO在自然图像上做训练，在艺术作品上做测试时，YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征，从而迁移到其他领域。

尽管YOLO有这些优点，它也有一些缺点：

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好（尤其是密集的小物体，因为一个栅格只能预测2个物体）。

yolov3论文引用时怎么写参考文献

可使用方括号。
在论文正文中所引用的参考文献，应该使用方括号，用阿拉伯数字，1.2.等按顺序以右上角标形式标注在引用的地方，当引用多篇文献的时候，需要将个篇参考文献的序号在方括号内列出来，各个序号用“，”的形式，如果是连续序号，那么可以标注讫序号。参考文献的引用顺序，也就是后面的编码顺序，顺序不可以乱。

【目标检测算法解读】yolo系列算法二

|声明：遵循CC 4.0 BY-SA版权协议

    建立在YOLOv1的基础上，经过Joseph Redmon等的改进，YOLOv2和YOLO9000算法在2017年CVPR上被提出，并获得最佳论文提名，重点解决YOLOv1召回率和定位精度方面的误差。在提出时，YOLOv2在多种监测数据集中都要快过其他检测系统，并可以在速度与精确度上进行权衡。

    YOLOv2采用Darknet-19作为特征提取网络，增加了批量标准化（Batch Normalization）的预处理，并使用224×224和448×448两阶段训练ImageNet，得到预训练模型后fine-tuning。

    相比于YOLOv1是利用FC层直接预测Bounding Box的坐标，YOLOv2借鉴了FSR-CNN的思想，引入Anchor机制，利用K-Means聚类的方式在训练集中聚类计算出更好的Anchor模板，在卷积层使用Anchor Boxes操作，增加Region Proposal的预测，同时采用较强约束的定位方法，大大提高算法召回率。同时结合图像细粒度特征，将浅层特征与深层特征相连，有助于对小尺寸目标的检测。

    下图所示是YOLOv2采取的各项改进带了的检测性能上的提升：

    YOLO9000 的主要检测网络也是YOLO v2，同时使用WordTree来混合来自不同的资源的训练数据，并使用联合优化技术同时在ImageNet和COCO数据集上进行训练，目的是利用数量较大的分类数据集来帮助训练检测模型，因此，YOLO 9000的网络结构允许实时地检测超过9000种物体分类，进一步缩小了检测数据集与分类数据集之间的大小代沟。

    下面将具体分析YOLOv2的各个创新点:

BN概述：

    对数据进行预处理（统一格式、均衡化、去噪等）能够大大提高训练速度，提升训练效果。BN正是基于这个假设的实践，对每一层输入的数据进行加工。

    BN是2015年Google研究员在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》一文中提出的，同时也将BN应用到了2014年的GoogLeNet上，也就是Inception-v2。

    BN层简单讲就是对网络的每一层的输入都做了归一化，这样网络就不需要每层都去学数据的分布，收敛会更快。YOLOv1算法（采用的是GoogleNet网络提取特征）是没有BN层的，而在YOLOv2中作者为每个卷积层都添加了BN层。

    使用BN对网络进行优化，让网络提高了收敛性，同时还消除了对其他形式的正则化（regularization）的依赖，因此使用BN后可以从模型中去掉Dropout，而不会产生过拟合。

BN优点：

神经网络每层输入的分布总是发生变化，加入BN，通过标准化上层输出，均衡输入数据分布，加快训练速度，因此可以设置较大的学习率（Learning Rate）和衰减（Decay）；

通过标准化输入，降低激活函数（Activation Function）在特定输入区间达到饱和状态的概率，避免梯度弥散（Gradient Vanishing）问题；

输入标准化对应样本正则化，BN在一定程度上可以替代 Dropout解决过拟合问题。

BN算法：

    在卷积或池化之后，激活函数之前，对每个数据输出进行标准化，方式如下图所示：

    公式很简单，前三行是 Batch内数据归一化（假设一个Batch中有每个数据），同一Batch内数据近似代表了整体训练数据。第四行引入了附加参数 γ 和 β，此二者的取值算法可以参考BN论文，在此不再赘述。

    fine-tuning：用已经训练好的模型，加上自己的数据集，来训练新的模型。即使用别人的模型的前几层，来提取浅层特征，而非完全重新训练模型，从而提高效率。一般新训练模型准确率都会从很低的值开始慢慢上升，但是fine-tuning能够让我们在比较少的迭代次数之后得到一个比较好的效果。

    YOLO模型分为两部分，分类模型和检测模型，前者使用在ImageNet上预训练好的模型，后者在检测数据集上fine-tuning。

    YOLOv1在预训练时采用的是224*224的输入（在ImageNet数据集上进行），然后在检测的时候采用448*448的输入，这会导致从分类模型切换到检测模型的时候，模型还要适应图像分辨率的改变。

    YOLOv2则将预训练分成两步：先用224*224的输入在ImageNet数据集训练分类网络，大概160个epoch（将所有训练数据循环跑160次）后将输入调整到448*448，再训练10个epoch（这两步都是在ImageNet数据集上操作）。然后利用预训练得到的模型在检测数据集上fine-tuning。这样训练得到的模型，在检测时用448*448的图像作为输入可以顺利检测。

    YOLOv1将输入图像分成7*7的网格，每个网格预测2个Bounding Box，因此一共有98个Box，同时YOLOv1包含有全连接层，从而能直接预测Bounding Boxes的坐标值，但也导致丢失较多的空间信息，定位不准。

    YOLOv2首先将YOLOv1网络的FC层和最后一个Pooling层去掉，使得最后的卷积层可以有更高分辨率的特征，然后缩减网络，用416*416大小的输入代替原来的448*448，使得网络输出的特征图有奇数大小的宽和高，进而使得每个特征图在划分单元格（Cell）的时候只有一个中心单元格（Center Cell）。

    为什么希望只有一个中心单元格呢？由于图片中的物体都倾向于出现在图片的中心位置，特别是比较大的物体，所以有一个单元格单独位于物体中心的位置用于预测这些物体。

    YOLOv2通过引入Anchor Boxes，通过预测Anchor Box的偏移值与置信度，而不是直接预测坐标值。YOLOv2的卷积层采用32这个值来下采样图片，所以通过选择416*416用作输入尺寸最终能输出一个13*13的特征图。若采用FSRCNN中的方式，每个Cell可预测出9个Anchor Box，共13*13*9=1521个（YOLOv2确定Anchor Boxes的方法见是维度聚类，每个Cell选择5个Anchor Box）。

    在FSRCNN中，以一个51*39大小的特征图为例，其可以看做一个尺度为51*39的图像，对于该图像的每一个位置，考虑9个可能的候选窗口：3种面积3种比例。这些候选窗口称为Anchor Boxes。下图示出的是51*39个Anchor Box中心，以及9种Anchor Box示例。

YOLOv1和YOLOv2特征图数据结构：

YOLOv1：S*S* (B*5 + C) => 7*7（2*5+20）

    其中B对应Box数量，5对应边界框的定位信息（w,y,w,h）和边界框置信度（Confidience）。分辨率是7*7，每个Cell预测2个Box，这2个Box共用1套条件类别概率（1*20）。

YOLOv2：S*S*K* (5 + C) => 13*13*9（5+20）

    分辨率提升至13*13，对小目标适应性更好，借鉴了FSRCNN的思想，每个Cell对应K个Anchor box（YOLOv2中K=5），每个Anchor box对应1组条件类别概率（1*20）。

    聚类：聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。即在没有划分类别的情况下，根据数据相似度进行样本分组。

    在FSR-CNN中Anchor Box的大小和比例是按经验设定的，然后网络会在训练过程中调整Anchor Box的尺寸，最终得到准确的Anchor Boxes。若一开始就选择了更好的、更有代表性的先验Anchor Boxes，那么网络就更容易学到准确的预测位置。

    YOLOv2使用K-means聚类方法类训练Bounding Boxes，可以自动找到更好的宽高维度的值用于一开始的初始化。传统的K-means聚类方法使用的是欧氏距离函数，意味着较大的Anchor Boxes会比较小的Anchor Boxes产生更多的错误，聚类结果可能会偏离。由于聚类目的是确定更精准的初始Anchor Box参数，即提高IOU值，这应与Box大小无关，因此YOLOv2采用IOU值为评判标准，即K-means 采用的距离函数（度量标准）为：

d(box,centroid) = 1 - IOU(box,centroid)

    如下图，左边是聚类的簇个数和IOU的关系，两条曲线分别代表两个不同的数据集。分析聚类结果并权衡模型复杂度与IOU值后，YOLOv2选择K=5，即选择了5种大小的Box 维度来进行定位预测。

    其中紫色和灰色也是分别表示两个不同的数据集，可以看出其基本形状是类似的。更重要的是，可以看出聚类的结果和手动设置的Anchor Box位置和大小差别显著——结果中扁长的框较少，而瘦高的框更多（更符合行人的特征）。

    YOLOv2采用的5种Anchor的Avg IOU是61，而采用9种Anchor Boxes的Faster RCNN的Avg IOU是60.9，也就是说本文仅选取5种box就能达到Faster RCNN的9中box的效果。选择值为9的时候，AVG IOU更有显著提高。说明K-means方法的生成的boxes更具有代表性。

    直接对Bounding Boxes求回归会导致模型不稳定，其中心点可能会出现在图像任何位置，有可能导致回归过程震荡，甚至无法收敛，尤其是在最开始的几次迭代的时候。大多数不稳定因素产生自预测Bounding Box的中心坐标（x,y）位置的时候。

    YOLOv2的网络在特征图（13*13）的每一个单元格中预测出5个Bounding Boxes（对应5个Anchor Boxes），每个Bounding Box预测出5个值（tx,ty,tw,th,t0），其中前4个是坐标偏移值，t0是置信度结果（类似YOLOv1中的边界框置信度Confidence）。YOLOv2借鉴了如下的预测方式，即当Anchor Box的中心坐标和宽高分别是（xa,ya）和（wa,wh）时，Bounding Box坐标的预测偏移值（tx,ty,tw,th）与其坐标宽高（x,y,w,h）的关系如下：

tx = (x-xa)/wa

ty= (y-ya)/ha

tw = log(w/wa)

th = log(h/ha)

    基于这种思想，YOLOv2在预测Bounding Box的位置参数时采用了如下强约束方法：

    上图中，黑色虚线框是Anchor Box，蓝色矩形框就是预测的Bounding Box结果，预测出的Bounding Box的坐标和宽高为（bx,by）和（bw,bh），计算方式如图中所示，其中：对每个Bounding Box预测出5个值（tx,ty,tw,th,t0），Cell与图像左上角的横纵坐标距离为（cx,cy），σ定义为sigmoid激活函数（将函数值约束到［0,1］），该Cell对应的Anchor Box对应的宽高为（pw,ph）。

    简而言之，（bx,by）就是（cx,cy）这个Cell附近的Anchor Box针对预测值（tx,ty）得到的Bounding Box的坐标预测结果，同时可以发现这种方式对于较远距离的Bounding Box预测值（tx,ty）能够得到很大的限制。

    YOLOv2通过添加一个转移层，把高分辨率的浅层特征连接到低分辨率的深层特征（把特征堆积在不同Channel中）而后进行融合和检测。具体操作是先获取前层的26*26的特征图，将其同最后输出的13*13的特征图进行连接，而后输入检测器进行检测（检测器的FC层起到了全局特征融合的作用），以此来提高对小目标的检测能力。

    为了适应不同尺度下的检测任务，YOLOv2在训练网络时，其在检测数据集上fine-tuning时候采用的输入图像的size是动态变化的。具体来讲，每训练10个Batch，网络就会随机选择另一种size的输入图像。因为YOLOv2用到了参数是32的下采样，因此也采用32的倍数作为输入的size，即采用{320,352,…,608}的输入尺寸（网络会自动改变尺寸，并继续训练的过程）。

这一策略让网络在不同的输入尺寸上都能达到较好的预测效果，使同一网络能在不同分辨率上进行检测。输入图片较大时，检测速度较慢，输入图片较小时，检测速度较快，总体上提高了准确率，因此多尺度训练算是在准确率和速度上达到一个平衡。

    上表反映的是在检测时，不同大小的输入图片情况下的YOLOv2和其他目标检测算法的对比。可以看出通过多尺度训练的检测模型，在测试的时候，输入图像在尺寸变化范围较大的情况下也能取得mAP和FPS的平衡。

    YOLOv1采用的训练网络是GoogleNet，YOLOv2采用了新的分类网络Darknet-19作为基础网络，它使用了较多的3*3卷积核，并把1*1的卷积核置于3*3的卷积核之间，用来压缩特征，同时在每一次池化操作后把通道（Channels）数翻倍（借鉴VGG网络）。

    YOLOv1采用的GooleNet包含24个卷积层和2个全连接层，而Darknet-19包含19个卷积层和5个最大池化层（Max Pooling Layers），后面添加Average Pooling层（代替v1中FC层），而Softmax分类器作为激活被用在网络最后一层，用来进行分类和归一化。

    在ImageNet数据集上进行预训练，主要分两步（采用随机梯度下降法）：

输入图像大小是224*224，初始学习率（Learning Rate）为0.1，训练160个epoch，权值衰减（Weight Decay）为0.0005，动量（Momentum）为0.9，同时在训练时采用标准的数据增强（Data Augmentation）方式如随机裁剪、旋转以及色度、亮度的调整。

fine-tuning：第1步结束后，改用448*448输入（高分辨率模型），学习率改为0.001，训练10个epoch，其他参数不变。结果表明：fine-tuning后的top-1准确率为76.5%，top-5准确率为93.3%，若按照原来的训练方式，Darknet-19的top-1准确率是72.9%，top-5准确率为91.2%。可以看出，两步分别从网络结构和训练方式方面入手提高了网络分类准确率。

    预训练之后，开始基于检测的数据集再进行fine-tuning。

    首先，先把最后一个卷积层去掉，然后添加3个3*3的卷积层，每个卷积层有1024个卷积核，并且后面都连接一个1*1的卷积层，卷积核个数（特征维度）根据需要检测的类数量决定。（比如对VOC数据，每个Cell需要预测5个Boungding Box，每个Bounding Box有4个坐标值、1个置信度值和20个条件类别概率值，所以每个单元格对应125个数据，此时卷积核个数应该取125。）

    然后，将最后一个3*3*512的卷积层和倒数第2个卷积层相连（提取细粒度特征），最后在检测数据集上fine-tuning预训练模型160个epoch，学习率采用0.001，并且在第60和90个epoch的时候将学习率除以10，权值衰减、动量和数据增强方法与预训练相同。

    YOLO9000通过结合分类和检测数据集，使得训练得到的模型可以检测约9000类物体，利用带标注的分类数据集量比较大的特点，解决了带标注的检测数据集量比较少的问题。具体方法是：一方面采用WordTree融合数据集，另一方面联合训练分类数据集和检测数据集。

    分类数据集和检测数据集存在较大差别：检测数据集只有粗粒度的标记信息，如“猫”、“狗”，而分类数据集的标签信息则更细粒度，更丰富。比如“狗”就包括“哈士奇”、“金毛狗”等等。所以如果想同时在检测数据集与分类数据集上进行训练，那么就要用一种一致性的方法融合这些标签信息。

    用于分类的方法，常用Softmax（比如v2），Softmax意味着分类的类别之间要互相独立的，而ImageNet和COCO这两种数据集之间的分类信息不相互独立（ImageNet对应分类有9000种，而COCO仅提供80种目标检测），所以使用一种多标签模型来混合数据集，即假定一张图片可以有多个标签，并且不要求标签之间独立，而后进行Softmax分类。

    由于ImageNet的类别是从WordNet选取的，作者采用以下策略重建了一个树形结构（称为WordTree）：

遍历ImageNet的标签，然后在WordNet中寻找该标签到根节点(所有的根节点为实体对象)的路径；

如果路径只有一条，将该路径直接加入到WordTree结构中；

否则，从可选路径中选择一条最短路径，加入到WordTree结构中。

WordTree的作用就在于将两种数据集按照层级进行结合。

    如此，在WordTree的某个节点上就可以计算该节点的一些条件概率值，比如在terrier这个节点，可以得到如下条件概率值：

    进而，如果要预测此节点的概率（即图片中目标是Norfolk terrier的概率），可以根据WordTree将该节点到根节点的条件概率依次相乘得到，如下式：

其中：

    YOLO9000在WordTree1k（用有1000类别的ImageNet1k创建）上训练了Darknet-19模型。为了创建WordTree1k作者添加了很多中间节点（中间词汇），把标签由1000扩展到1369。

    训练过程中GroundTruth标签要顺着向根节点的路径传播：为了计算条件概率，模型预测了一个包含1369个元素的向量，而且基于所有“同义词集”计算Softmax，其中“同义词集”是同一概念下的所属词。

    现在一张图片是多标记的，标记之间不需要相互独立。在训练过程中，如果有一个图片的标签是“Norfolk terrier”，那么这个图片还会获得“狗”以及“哺乳动物”等标签。

    如上图所示，之前的ImageNet分类是使用一个大Softmax进行分类，而现在WordTree只需要对同一概念下的同义词进行Softmax分类。然后作者分别两个数据集上用相同训练方法训练Darknet-19模型，最后在ImageNet数据集上的top-1准确率为72.9%，top-5准确率为91.2%；在WordTree数据集上的top-1准确率为71.9%，top-5准确率为90.4%。

    这种方法的好处是有“退而求其次”的余地：在对未知或者新的物体进行分类时，性能损失更低，比如看到一个狗的照片，但不知道是哪种种类的狗，那么就预测其为“狗”。

    以上是构造WordTree的原理，下图是融合COCO数据集和ImageNet数据集以及生成它们的WordTree的示意图（用颜色区分了COCO数据集和ImageNet数据集的标签节点），混合后的数据集对应的WordTree有9418个类。另一方面，由于ImageNet数据集太大，YOLO9000为了平衡两个数据集之间的数据量，通过过采样（Oversampling）COCO数据集中的数据，使COCO数据集与ImageNet数据集之间的数据量比例达到1：4。

    对YOLO9000进行评估，发现其mAP比DPM高，而且YOLO有更多先进的特征，YOLO9000是用部分监督的方式在不同训练集上进行训练，同时还能检测9000个物体类别，并保证实时运行。虽然YOLO9000对动物的识别性能很好，但是对衣服或者装备的识别性能不是很好（这跟数据集的数据组成有关）。

    YOLO9000的网络结构和YOLOv2类似，区别是每个单元格只采用3个Anchor Boxes。

    YOLO9000提出了一种在分类数据集和检测数据集上联合训练的机制，即使用检测数据集（COCO）的图片去学习检测相关的信息即查找对象（例如预测边界框坐标、边界框是否包含目标及目标属于各个类别的概率），使用仅有类别标签的分类数据集（ImageNet）中的图片去扩展检测到的对象的可识别种类。

    具体方法是：当网络遇到一个来自检测数据集的图片与标记信息，就把这些数据用完整的损失函数（v2和9000均沿用了v1网络的损失函数）反向传播，而当网络遇到一个来自分类数据集的图片和分类标记信息，只用代表分类误差部分的损失函数反向传播这个图片。

    YOLO v2 在大尺寸图片上能够实现高精度，在小尺寸图片上运行更快，可以说在速度和精度上达到了平衡，具体性能表现如下所示。

coco数据集

voc2012数据集

YOLOv1详解

     从目标检测任务（Object Detection Task）发展来看，主要有两类方法。一类是R-CNN系列及其类似算法，称为two-stage，将目标检测任务分为边界框回归和物体分类两个模块。虽然模型前面大量的提取特征以及候选框的选取都是单个网络完成，但回归和分类任务毕竟还是分开的，分开训练造成网络较难收敛，且预测时速度慢，但准确度较高。另一类是本文描述以及后面会更新换代的YOLO算法，称为one-stage，将目标检测任务单纯看做回归任务。YOLOv1使用端到端的网络训练模型，速度快，但准确度相对低些，主要用于实时检测，例如视频目标检测。

     由于YOLOv1是端到端进行训练，因此YOLOv1只有一条单一的网络分支。YOLOv1输入为的图像，经过一个修改的GoogLeNet网络（网络到底什么样的其实不用管，只要知道是一堆卷积和池化的堆叠即可），后面接一些全连接层（同样无所谓接什么全连接层，看下参数或者源码就直接懂了），最后接到一个的全连接层，直接reshape为（这里reshape成这样是有意图的，具体参见下面部分）。

     YOLOv1将一张图像（例如）划分为个网格（YOLOv1中，如下图所示），一共个网格。

     损失函数有多个部分，我们现在把它们分开来说，后面直接挨个加起来即可。
     第一部分如下所示，计算预测边界框和GT框中心点之间的差距。其中表示第个网格的第个边界框是否负责一个物体，是为1，不是为0。

     第二部分类似第一部分，主要计算预测宽高和GT宽高损失。这里加上根号表示大边界框小偏差应该比小边界框小偏差更重要。

     第三部分计算对于每个边界框的置信度分数与预测的置信度分数之间差距。表示置信度分数，表示预测的边界框和对应GT框的IoU。

     最后一部分计算类概率损失，表示当网格中没有物体时不惩罚。

其中，，。

论文原文：
英文博客：
NMS参考：

YOLOv3详解

     YOLO是“You Only Look Once”的简称，它虽然不是最精确的算法，但在精确度和速度之间选择的折中，效果也是相当不错。YOLOv3借鉴了YOLOv1和YOLOv2，虽然没有太多的创新点，但在保持YOLO家族速度的优势的同时，提升了检测精度，尤其对于小物体的检测能力。YOLOv3算法使用一个单独神经网络作用在图像上，将图像划分多个区域并且预测边界框和每个区域的概率。

     YOLOv3仅使用卷积层，使其成为一个全卷积网络（FCN）。文章中，作者提出一个新的特征提取网络，Darknet-53。正如其名，它包含53个卷积层，每个后面跟随着batch normalization层和leaky ReLU层。没有池化层，使用步幅为2的卷积层替代池化层进行特征图的降采样过程，这样可以有效阻止由于池化层导致的低层级特征的损失。Darknet-53网络如下图左边所示。

     输入是。输出是带有识别类的边界框列表，每个边界框由六个参数表示。如果表示80个类别，那么每个边界框由85个数字表示。
     在YOLO中，预测过程使用一个卷积，所以输入是一个特征图。由于使用卷积，因此预测图正好是特征图大小（卷积只是用于改变通道数）。在YOLOv3中，此预测图是每个cell预测固定数量的边界框。
     如上图所示，预测图的深度为75，假设预测图深度为，表示每个cell可以预测的边界框数量。这些个边界框可以指定检测到一个物体。每个边界框有个特征，分别描述中心点坐标和宽高（四个）和物体分数（一个）以及个类置信度（上图中）。YOLOv3每个cell预测三个边界框。
     如果对象的中心（GT框中心）落在该cell感受野范围内，我们希望预测图的每个单元格都能通过其中一个边界框预测对象。其中只有一个边界框负责检测物体，首先我们需要确定此边界框属于哪个cell。
     为了实现上面的想法，我们将原始图像分割为最后预测图维度大小的网格。如下图所示，输入图像维度为，步幅为32（最后的预测图降采样32倍），最后预测图维度为，所以我们将原始图像划分为的网格。

     直接预测框的宽高会导致训练时不稳定的梯度问题，因此，现在的很多目标检测方法使用log空间转换或者简单的偏移（offset）到称为锚框的预定义默认边界框。然后将这些变换应用到锚框以获得预测，YOLOv3具有三个锚框，可以预测每个单元格三个边界框。
     锚框是边界框的先验，是使用k均值聚类在COCO数据集上计算的。我们将预测框的宽度和高度，以表示距聚类质心的偏移量。
     以下公式描述了如何转换网络输出以获得边界框预测：

这里分别是我们预测的中心坐标、宽度和高度。是网络的输出。是网格从顶左部的坐标。是锚框的维度（见下图）。

     通过sigmoid函数进行中心坐标预测，强制将值限制在0和1之间。YOLO不是预测边界框中心的绝对坐标，它预测的是偏移量：相对于预测对象的网格单元的左上角；通过特征图cell归一化维度。
     例如，考虑上面狗的图像。如果预测中心坐标是，意味着中心在（因为红色框左上角坐标是）。但是如果预测的坐标大于1，例如，意味着中心在，现在中心在红色框右边，但是我们只能使用红色框对对象预测负责，所以我们添加一个sidmoid函数强制限制在0和1之间。

     通过对输出应用对数空间转换，然后与锚框相乘，可以预测边界框的尺寸（如上面的计算公式）。

     物体分数表示一个边界框包含一个物体的概率，对于红色框和其周围的框几乎都为1，但边角的框可能几乎都为0。物体分数也通过一个sigmoid函数，表示概率值。
     类置信度表示检测到的物体属于一个具体类的概率值，以前的YOLO版本使用softmax将类分数转化为类概率。在YOLOv3中作者决定使用sigmoid函数取代，原因是softmax假设类之间都是互斥的，例如属于“Person”就不能表示属于“Woman”，然而很多情况是这个物体既是“Person”也是“Woman”。

     为了识别更多的物体，尤其小物体，YOLOv3使用三个不同尺度进行预测（不仅仅只使用）。三个不同尺度步幅分别是32、16和8。这意味着，输入图像，检测尺度分别为、和（如下图或者更详细如图2所示）。
     YOLOv3为每种下采样尺度设定3个先验框，总共聚类9个不同尺寸先验框。在COCO数据集上9个先验框分别是：。下表是9个先验框分配情况：

     我们的网络生成10647个锚框，而图像中只有一个狗，怎么将10647个框减少为1个呢？首先，我们通过物体分数过滤一些锚框，例如低于阈值（假设0.5）的锚框直接舍去；然后，使用NMS（非极大值抑制）解决多个锚框检测一个物体的问题（例如红色框的3个锚框检测一个框或者连续的cell检测相同的物体，产生冗余），NMS用于去除多个检测框。
     具体使用以下步骤：抛弃分数低的框（意味着框对于检测一个类信心不大）；当多个框重合度高且都检测同一个物体时只选择一个框（NMS）。
     为了更方便理解，我们选用上面的汽车图像。首先，我们使用阈值进行过滤一部分锚框。模型有个数，每个盒子由85个数字描述。将分割为下面的形状：box_confidence：表示个cell，每个cell5个框，每个框有物体的置信度概率；boxes：表示每个cell5个框，每个框的表示；box_class_probs：表示每个cell5个框，每个框80个类检测概率。
     即使通过类分数阈值过滤一部分锚框，还剩下很多重合的框。第二个过程叫NMS，里面有个IoU，如下图所示。

     下图给出更加详细的输入输出情况：

文章原文：
论文原文：
YOLOv3深入理解：
keras实现YOLOv3博客：
What new in YOLOv3?：

上一篇：航空论文范文参考

下一篇：绍兴台门研究论文

yolo知网论文