首页 > 学术论文知识库 > 目标检测系相关论文阅读

目标检测系相关论文阅读

发布时间:

目标检测系相关论文阅读

原文: Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// International Conference on Neural Information Processing Systems. MIT Press, 2015:91-99.

译文参考: Faster R-CNN论文翻译——中英文对照

目标检测网络依赖于Region Proposal算法假设目标位置,通过引入Region Proposal(网络RPN),与检测网络共享全图像卷积特征,使得Region Proposals的成本近乎为零。

如下图所示,图a采用的是图像金子塔(Pyramids Of Images)方法;图b采用的是滤波器金字塔(Pyramids Of Filters)方法;图c引入“锚”盒("Anchor" Boxes)这一概念作为多尺度和长宽比的参考,其可看作回归参考金字塔(Pyramids Of Regression References)方法,该方法可避免枚举图像、多尺度滤波器和长宽比。

为了将RPN与Fast R-CNN相结合,本文提出了一种新的训练策略:在region proposal任务和目标检测任务之间交替进行微调,同时保持proposals的固定。该方案能够快速收敛,两个任务之间并共享具有卷积特征的统一网络。

Faster R-CNN由两个模块组成:

RPN以任意大小的图像作为输入,输出一组矩形的目标proposals,每个proposals都有一个目标得分。在实验中,假设两个网络(RPN和Fast R-CNN)共享一组共同的卷积层,并研究了具有5个共享卷积层的 Zeiler和Fergus模型(ZF) ,以及具有13个共享卷积层的 Simonyan和Zisserman模型(VGG-16) 。

为了生成region proposals,对最后的共享卷积层输出的卷积特征图谱使用一个小网络。该网络以卷积特征图谱的 空间窗口作为输入,且每个滑动窗口映射到一个低维特征,所有空间位置共享全连接层。

该低维特征作为两个子全连接层———边界框回归层(box-regression layer, reg)和边界框分类层(box-classification layer, cls)的输入,其卷积核均为 大小。

对于每个滑动窗口位置,可同时预测多个region proposals,最大region proposals数为 。因此,reg层具有 个输出,用于编码k个边界框的坐标;cls层具有 个得分,用于估计每个proposal是目标或不是目标的概率。

Anchors:k个proposals相对于 个参考框是参数化形式。

anchor位于滑动窗口的中心,并与尺度和长宽比相关。默认情况,使用3个尺度和3个长宽比,在每个滑动位置产生 个anchors。对于大小为 的卷积特征图谱,共产生 个anchors。

基于anchor的方法建立在anchors金字塔(pyramid of anchors)上,参考多尺度和长宽比的anchor盒来分类和回归边界框,用于解决多尺度和多长宽比问题。

为了训练RPN,为每个anchor分配一个二值标签。

正标签:

负标签:IoU值低于。

对Fast R-CNN中的多任务损失进行最小化。图像的损失函数为:

其中, 是mini-batch数据中anchor的索引, 是第i个anchor作为目标的预测概率。若anchor为正标签,真值 ;反之, 。 是表示预测边界框4个参数化坐标的向量, 是正真值框的向量。分类损失 为两个类别的对数损失;回归损失 ,其中 为在 Fast R-CNN 一文中定义的鲁棒损失函数(平滑 )。 表示回归损失仅对正anchor激活,否则被禁用( )。cls和rge层的输出分别由 和 组成。该两项使用 和 进行标准化,并使用平衡参数 加权处理。等式中cls项根据mini-batch的大小进行归一化,而reg项根据anchor位置的数据进行归一化。默认情况下, 从而使得cls和reg项的权重大致相等。

对于边界框回归,采用 Rich feature hierarchies for accurate object detection and semantic segmentation 一文中的4个坐标参数化方法:

其中, 和 表示边界框的中心坐标及其宽和高。变量 和 分别表示预测边界框、anchor和真值框。

采样策略:以图像为中心。

在图像中随机采样256个anchors,用于mini-batch数据中损失函数的计算,正负样本的比例为 。

从标准差为的零均值高斯分布中提取权重来随机初始化所有的新网络层,而共享卷积层通过预训练ImageNet分类模型来初始化。同时,调整ZF网络的所有网络层,以及VGG网络的conv3_1之上的网络,用于节省内存的使用。对于60k的mini-batch数据,学习率为;对于PASCAL VOC数据集中的20k的mini-bacth数据,学习率为。随机梯度下降算法的动量设置为,重量衰减率为。

训练具有共享特征网络的三个方法:

版权印版权标识

有一个月没更博客了,捂脸 o( ̄= ̄)d

端午回家休息了几天,6月要加油~

回到正文,HOG是很经典的一种图像特征提取方法,尤其是在行人识别领域被应用的很多。虽然文章是2005年发表在CVPR上的,但近十年来还没有被淹没的文章真的是很值得阅读的研究成果了。

key idea: 局部物体的形状和外观可以通过局部梯度或者边缘的密度分布所表示。

主要步骤:

上图为论文中提供的图,个人觉得我在参考资料中列出的那篇 博客 中给出的图可能更好理解一些。

具体细节: 关于每一个过程的详细解释还是在 这篇博客 中已经写得很清楚了,这里就不再搬运了。

文章中数据集的图像大小均为:64*128, block大小为16x16, block stride为8x8,cell size为8x8,bins=9(直方图等级数);

获取到每张图的特征维度后,再用线性SVM训练分类器即可。

下图为作者而给出的示例图:

这两篇博客写的都很好,推荐阅读一波。

原文: Scalable Object Detection using Deep Neural Networks——学术范 最近,深度卷积神经网络在许多图像识别基准上取得了最先进的性能,包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络,它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文,但如果不天真地复制每个实例的输出数量,就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型,它预测了一组与类无关的边界框,每个框有一个分数,对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例,并允许在网络的最高级别上进行跨类泛化。 目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器,并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中,以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加,这个挑战变得更加困难,因为大多数方法都训练每个类单独的检测器。为了解决这个问题,人们提出了多种方法,从检测器级联到使用分割提出少量的对象假设。 关于对象检测的文献非常多,在本节中,我们将重点讨论利用类不可知思想和解决可伸缩性的方法。 许多提出的检测方法都是基于基于部件的模型,最近由于有区别学习和精心设计的特征,已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板,这是非常昂贵的。此外,它们在类的数量上是可伸缩的,这对像ImageNet这样的现代数据集来说是一个挑战。 为了解决前一个问题,Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题,Song et al.使用了一个低维部件基,在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。 另一种不同的工作,与我们的工作更接近,是基于对象可以本地化的想法,而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机,Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分,并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型,分割作为第一层,分割分类作为后续层。尽管它们编码了已证明的感知原理,但我们将表明,有更深入的模型,充分学习可以导致更好的结果。 最后,我们利用了DeepLearning的最新进展,最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而,基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能,但由于单个掩模回归的成本,不能扩展到多个类。 我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说,我们使用了深度神经网络(DNN),它输出固定数量的包围盒。此外,它为每个盒子输出一个分数,表示这个盒子包含一个对象的网络信任度。 为了形式化上述思想,我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值,可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸,以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的,后面跟着一个sigmoid。 我们可以组合边界盒位置sli,i∈{1,…K}为一个线性层。同样,我们可以将所有置信区间ci,i∈{1,…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层 在推理时,我们的算法生成kbound盒。在我们的实验中,我们使用ek = 100和K= 200。如果需要,我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此,它们可以通过后续的分类器进行分类,实现目标检测。由于盒子的数量非常少,我们可以提供强大的分类器。在我们的实验中,我们使用另一个dnn进行分类。 我们训练一个DNN来预测每个训练图像的边界框及其置信度得分,以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子,对象被标记为boundingboxesgj,j∈{1,…,M}。在实践中,pre- dictionary的数量远远大于groundtruthboxm的数量。因此,我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置,以提高他们的匹配度,最大化他们的信心。与此同时,我们将剩余预测的置信度最小化,这被认为不能很好地定位真实对象。为了达到上述目的,我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1,如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为 其中,我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外,我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为  最终的损失目标结合了匹配损失和信心损失 受式1的约束。α平衡了不同损失条款的贡献。 对于每个训练例子,我们通过解决一个最佳的赋值x*的预测到真实的盒子 约束执行赋值解决方案。这是二部匹配的一种变体,是一种多项式复杂度匹配。在我们的应用程序中,匹配是非常便宜的——每幅图像中标记的对象的数量少于一打,而且在大多数情况下只有很少的对象被标记。然后,通过反向传播优化网络参数。例如,反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的,但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类,并找到这样的聚类/质心,我们可以使用这些聚类/质心作为每个预测位置的先验。因此,鼓励学习算法为每个预测位置学习一个残差到一个先验。 第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配,而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成,就会像之前一样计算目标的置信度。此外,位置预测损失也不变:对于任何一对匹配的(目标,预测)位置,其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配,并假设它促进了预测的多样化。  需要注意的是,尽管我们以一种与类无关的方式定义了我们的方法,但我们可以将它应用于预测特定类的对象盒。要做到这一点,我们只需要在类的边框上训练我们的模型。此外,我们可以预测每个类的kbox。不幸的是,这个模型的参数数量会随着类的数量线性增长。此外,在一个典型的设置中,给定类的对象数量相对较少,这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此,我们认为我们的两步过程——首先本地化,然后识别——是一个更好的选择,因为它允许使用少量参数利用同一图像中多个对象类型的数据 我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减,128的小批量,以及使用多个相同的网络副本进行并行分布式训练,从而实现更快的收敛。如前所述,我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外,使用非最大抑制对盒进行修剪,Jaccard相似度阈值为。然后,我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络,我们从训练集中生成了大约3000万幅图像,并对训练集中的每幅图像应用以下步骤。最后,样品被打乱。为了训练我们的本地化网络,我们通过对训练集中的每一幅图像应用以下步骤,从训练集中生成了大约3000万幅图像。对于每幅图像,我们生成相同数量的平方样本,使样本总数大约为1000万。对于每幅图像,样本被桶状填充,这样,对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例,都有相同数量的样本,其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中,我们没有探索任何非标准数据生成或正则化选项。在所有的实验中,所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成,其中包含了20种不同的对象类别的边界框。在我们的评估中,我们关注的是2007版VOC,为此发布了一个测试集。我们通过培训VOC 2012展示了结果,其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。 我们在一个由1000万作物组成的数据集上训练分类器,该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。 在第一轮中,定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络,我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后,保留评分最高的前10个检测项,并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估,并用于计算精确查全曲线。 首先,我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量,正如Pascal检测标准所定义的那样,与生成的包围框的数量相对比。在图1中,我们展示了使用VOC2012进行训练所获得的结果。此外,我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的,当使用10个边界框的预算时,我们可以用第一个模型本地化的对象,用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能,例如对象度算法达到42%[1]。此外,这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象,但当使用更高分辨率的图像作物时,我们获得了额外的提升。进一步,我们用21-way分类器对生成的包围盒进行分类,如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是,与先进水平相当。注意,我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是,可视化检测是通过仅使用最大中心方形图像裁剪,即使用全图像获得的。然而,我们设法获得了相对较小的对象,例如第二行和第二列的船,以及第三行和第三列的羊。 在本工作中,我们提出了一种新的方法来定位图像中的对象,该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下,对1000个盒子进行非max-suppression,使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则,并学习在未见图像中预测这些位置。 我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果,在这两个基准上,所提出的方法具有竞争力。此外,该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明,deepmultibox的方法是可扩展的,甚至可以在两个数据集之间泛化,就能够预测感兴趣的定位,甚至对于它没有训练的类别。此外,它能够捕获同一类物体的多种情况,这是旨在更好地理解图像的算法的一个重要特征。 在未来,我们希望能够将定位和识别路径折叠到一个单一的网络中,这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下,双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估,每个评估的速度大约为1个CPU-sec(现代机器)。重要的是,这个数字并不与要识别的类的数量成线性关系,这使得所提出的方法与类似dpm的方法非常有竞争力。

目标检测系列论文阅读

原文: Scalable Object Detection using Deep Neural Networks——学术范 最近,深度卷积神经网络在许多图像识别基准上取得了最先进的性能,包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络,它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文,但如果不天真地复制每个实例的输出数量,就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型,它预测了一组与类无关的边界框,每个框有一个分数,对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例,并允许在网络的最高级别上进行跨类泛化。 目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器,并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中,以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加,这个挑战变得更加困难,因为大多数方法都训练每个类单独的检测器。为了解决这个问题,人们提出了多种方法,从检测器级联到使用分割提出少量的对象假设。 关于对象检测的文献非常多,在本节中,我们将重点讨论利用类不可知思想和解决可伸缩性的方法。 许多提出的检测方法都是基于基于部件的模型,最近由于有区别学习和精心设计的特征,已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板,这是非常昂贵的。此外,它们在类的数量上是可伸缩的,这对像ImageNet这样的现代数据集来说是一个挑战。 为了解决前一个问题,Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题,Song et al.使用了一个低维部件基,在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。 另一种不同的工作,与我们的工作更接近,是基于对象可以本地化的想法,而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机,Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分,并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型,分割作为第一层,分割分类作为后续层。尽管它们编码了已证明的感知原理,但我们将表明,有更深入的模型,充分学习可以导致更好的结果。 最后,我们利用了DeepLearning的最新进展,最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而,基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能,但由于单个掩模回归的成本,不能扩展到多个类。 我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说,我们使用了深度神经网络(DNN),它输出固定数量的包围盒。此外,它为每个盒子输出一个分数,表示这个盒子包含一个对象的网络信任度。 为了形式化上述思想,我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值,可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸,以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的,后面跟着一个sigmoid。 我们可以组合边界盒位置sli,i∈{1,…K}为一个线性层。同样,我们可以将所有置信区间ci,i∈{1,…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层 在推理时,我们的算法生成kbound盒。在我们的实验中,我们使用ek = 100和K= 200。如果需要,我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此,它们可以通过后续的分类器进行分类,实现目标检测。由于盒子的数量非常少,我们可以提供强大的分类器。在我们的实验中,我们使用另一个dnn进行分类。 我们训练一个DNN来预测每个训练图像的边界框及其置信度得分,以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子,对象被标记为boundingboxesgj,j∈{1,…,M}。在实践中,pre- dictionary的数量远远大于groundtruthboxm的数量。因此,我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置,以提高他们的匹配度,最大化他们的信心。与此同时,我们将剩余预测的置信度最小化,这被认为不能很好地定位真实对象。为了达到上述目的,我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1,如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为 其中,我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外,我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为  最终的损失目标结合了匹配损失和信心损失 受式1的约束。α平衡了不同损失条款的贡献。 对于每个训练例子,我们通过解决一个最佳的赋值x*的预测到真实的盒子 约束执行赋值解决方案。这是二部匹配的一种变体,是一种多项式复杂度匹配。在我们的应用程序中,匹配是非常便宜的——每幅图像中标记的对象的数量少于一打,而且在大多数情况下只有很少的对象被标记。然后,通过反向传播优化网络参数。例如,反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的,但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类,并找到这样的聚类/质心,我们可以使用这些聚类/质心作为每个预测位置的先验。因此,鼓励学习算法为每个预测位置学习一个残差到一个先验。 第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配,而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成,就会像之前一样计算目标的置信度。此外,位置预测损失也不变:对于任何一对匹配的(目标,预测)位置,其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配,并假设它促进了预测的多样化。  需要注意的是,尽管我们以一种与类无关的方式定义了我们的方法,但我们可以将它应用于预测特定类的对象盒。要做到这一点,我们只需要在类的边框上训练我们的模型。此外,我们可以预测每个类的kbox。不幸的是,这个模型的参数数量会随着类的数量线性增长。此外,在一个典型的设置中,给定类的对象数量相对较少,这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此,我们认为我们的两步过程——首先本地化,然后识别——是一个更好的选择,因为它允许使用少量参数利用同一图像中多个对象类型的数据 我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减,128的小批量,以及使用多个相同的网络副本进行并行分布式训练,从而实现更快的收敛。如前所述,我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外,使用非最大抑制对盒进行修剪,Jaccard相似度阈值为。然后,我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络,我们从训练集中生成了大约3000万幅图像,并对训练集中的每幅图像应用以下步骤。最后,样品被打乱。为了训练我们的本地化网络,我们通过对训练集中的每一幅图像应用以下步骤,从训练集中生成了大约3000万幅图像。对于每幅图像,我们生成相同数量的平方样本,使样本总数大约为1000万。对于每幅图像,样本被桶状填充,这样,对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例,都有相同数量的样本,其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中,我们没有探索任何非标准数据生成或正则化选项。在所有的实验中,所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成,其中包含了20种不同的对象类别的边界框。在我们的评估中,我们关注的是2007版VOC,为此发布了一个测试集。我们通过培训VOC 2012展示了结果,其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。 我们在一个由1000万作物组成的数据集上训练分类器,该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。 在第一轮中,定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络,我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后,保留评分最高的前10个检测项,并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估,并用于计算精确查全曲线。 首先,我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量,正如Pascal检测标准所定义的那样,与生成的包围框的数量相对比。在图1中,我们展示了使用VOC2012进行训练所获得的结果。此外,我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的,当使用10个边界框的预算时,我们可以用第一个模型本地化的对象,用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能,例如对象度算法达到42%[1]。此外,这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象,但当使用更高分辨率的图像作物时,我们获得了额外的提升。进一步,我们用21-way分类器对生成的包围盒进行分类,如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是,与先进水平相当。注意,我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是,可视化检测是通过仅使用最大中心方形图像裁剪,即使用全图像获得的。然而,我们设法获得了相对较小的对象,例如第二行和第二列的船,以及第三行和第三列的羊。 在本工作中,我们提出了一种新的方法来定位图像中的对象,该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下,对1000个盒子进行非max-suppression,使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则,并学习在未见图像中预测这些位置。 我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果,在这两个基准上,所提出的方法具有竞争力。此外,该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明,deepmultibox的方法是可扩展的,甚至可以在两个数据集之间泛化,就能够预测感兴趣的定位,甚至对于它没有训练的类别。此外,它能够捕获同一类物体的多种情况,这是旨在更好地理解图像的算法的一个重要特征。 在未来,我们希望能够将定位和识别路径折叠到一个单一的网络中,这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下,双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估,每个评估的速度大约为1个CPU-sec(现代机器)。重要的是,这个数字并不与要识别的类的数量成线性关系,这使得所提出的方法与类似dpm的方法非常有竞争力。

有一个月没更博客了,捂脸 o( ̄= ̄)d

端午回家休息了几天,6月要加油~

回到正文,HOG是很经典的一种图像特征提取方法,尤其是在行人识别领域被应用的很多。虽然文章是2005年发表在CVPR上的,但近十年来还没有被淹没的文章真的是很值得阅读的研究成果了。

key idea: 局部物体的形状和外观可以通过局部梯度或者边缘的密度分布所表示。

主要步骤:

上图为论文中提供的图,个人觉得我在参考资料中列出的那篇 博客 中给出的图可能更好理解一些。

具体细节: 关于每一个过程的详细解释还是在 这篇博客 中已经写得很清楚了,这里就不再搬运了。

文章中数据集的图像大小均为:64*128, block大小为16x16, block stride为8x8,cell size为8x8,bins=9(直方图等级数);

获取到每张图的特征维度后,再用线性SVM训练分类器即可。

下图为作者而给出的示例图:

这两篇博客写的都很好,推荐阅读一波。

2d目标检测相关论文

论文名称:Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间:2014年 论文地址: 针对问题: 从Alexnet提出后,作者等人思考如何利用卷积网络来完成检测任务,即输入一张图,实现图上目标的定位(目标在哪)和分类(目标是什么)两个目标,并最终完成了RCNN网络模型。 创新点: RCNN提出时,检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢,作者采用的是Selective Search候选区域提取算法,来获得当前输入图上可能包含目标的不同图像块,再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。 参考博客: 。 论文题目:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间:2014年 论文地址: 针对问题: 该论文讨论了,CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后,在网络后端组织两组卷积或全连接层,一组用于实现定位,输出当前图像上目标的最小外接矩形框坐标,一组用于分类,输出当前图像上目标的类别信息。也是以此为起点,检测网络出现基础主干网络(backbone)+分类头或回归头(定位头)的网络设计模式雏形。 创新点: 在这篇论文中还有两个比较有意思的点,一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的,而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制,那用1x1卷积来替换FC层,是否可行呢?作者在测试时通过将全连接层替换为1x1卷积核证明是可行的;二是提出了offset max-pooling,也就是对池化层输入特征不能整除的情况,通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练,然后切换分类头为回归头,再训练回归头的参数,最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。 参考博客: 论文题目:Scalable Object Detection using Deep Neural Networks 提出时间:2014年 论文地址: 针对问题: 既然CNN网络提取的特征可以直接用于检测任务(定位+分类),作者就尝试将目标框(可能包含目标的最小外包矩形框)提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。 创新点: 本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心,(800个anchor box)然后学习预测不考虑目标类别的二分类网络,背景or前景。用到了多尺度下的检测。 参考博客: 论文题目:DeepBox: Learning Objectness with Convolutional Networks 提出时间:2015年ICCV 论文地址: 主要针对的问题: 本文完成的工作与第三篇类似,都是对目标框提取算法的优化方案,区别是本文首先采用自底而上的方案来提取图像上的疑似目标框,然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序;而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点: 本文作者想通过CNN学习输入图像的特征,从而实现对输入网络目标框是否为真实目标的情况进行计算,量化每个输入框的包含目标的可能性值。 参考博客: 论文题目:AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间:2015年ICCV 论文地址: 主要针对的问题: 对检测网络的实现方案进行思考,之前的执行策略是,先确定输入图像中可能包含目标位置的矩形框,再对每个矩形框进行分类和回归从而确定目标的准确位置,参考RCNN。那么能否直接利用回归的思路从图像的四个角点,逐渐得到目标的最小外接矩形框和类别呢? 创新点: 通过从图像的四个角点,逐步迭代的方式,每次计算一个缩小的方向,并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。 参考博客: 论文题目:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间:2014年 论文地址: 针对问题: 如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络,在处理过程中就造成了图像块信息的损失。在实际的场景中,输入网络的目标尺寸很难统一,而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点: 作者提出的SPPnet中,通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸,在训练的时候,池化的操作还是通过滑动窗口完成的,池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。 参考博客 : 论文题目:Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间:2015年 论文地址: 针对问题: 既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位,本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点: 作者通过对输入网络的region进行一定的处理(通过数据增强,使得网络利用目标周围的上下文信息得到更精准的目标框)来增加网络对目标回归框的精度。具体的处理方式包括:扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置,使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性,从而提高了回归框的精度。 参考博客 : 论文题目:Fast-RCNN 提出时间:2015年 论文地址: 针对问题: RCNN中的CNN每输入一个图像块就要执行一次前向计算,这显然是非常耗时的,那么如何优化这部分呢? 创新点: 作者参考了SPPNet(第六篇论文),在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸,从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图,再将原图上用Selective Search算法得到的目标框映射到特征图上,避免了特征的重复提取。 参考博客 : 论文题目:DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间:2015年 论文地址: 主要针对的问题: 本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文,作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。 创新点: 作者在不同的激活层上以滑动窗口的方式生成了假设,并表明最终的卷积层可以以较高的查全率找到感兴趣的对象,但是由于特征图的粗糙性,定位性很差。相反,网络的第一层可以更好地定位感兴趣的对象,但召回率降低。 论文题目:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间:2015年NIPS 论文地址: 主要针对的问题: 由multibox(第三篇)和DeepBox(第四篇)等论文,我们知道,用CNN可以生成目标待检测框,并判定当前框为目标的概率,那能否将该模型整合到目标检测的模型中,从而实现真正输入端为图像,输出为最终检测结果的,全部依赖CNN完成的检测系统呢? 创新点: 将当前输入图目标框提取整合到了检测网络中,依赖一个小的目标框提取网络RPN来替代Selective Search算法,从而实现真正的端到端检测算法。 参考博客 :

原文: Scalable Object Detection using Deep Neural Networks——学术范 最近,深度卷积神经网络在许多图像识别基准上取得了最先进的性能,包括ImageNet大规模视觉识别挑战(ILSVRC-2012)。在定位子任务中获胜的模型是一个网络,它预测了图像中每个对象类别的单个边界框和置信度得分。这样的模型捕获了围绕对象的整幅图像上下文,但如果不天真地复制每个实例的输出数量,就无法处理图像中同一对象的多个实例。在这篇论文中提出了一个显著性启发的神经网络检测模型,它预测了一组与类无关的边界框,每个框有一个分数,对应于它包含任何感兴趣的对象的可能性。该模型自然地为每个类处理数量可变的实例,并允许在网络的最高级别上进行跨类泛化。 目标检测是计算机视觉的基本任务之一。一个解决这个问题的通用范例是训练在子图像上操作的对象检测器,并在所有的场所和尺度上以详尽的方式应用这些检测器。这一范例被成功地应用于经过区别训练的可变形零件模型(DPM)中,以实现检测任务的最新结果。对所有可能位置和尺度的穷举搜索带来了计算上的挑战。随着类数量的增加,这个挑战变得更加困难,因为大多数方法都训练每个类单独的检测器。为了解决这个问题,人们提出了多种方法,从检测器级联到使用分割提出少量的对象假设。 关于对象检测的文献非常多,在本节中,我们将重点讨论利用类不可知思想和解决可伸缩性的方法。 许多提出的检测方法都是基于基于部件的模型,最近由于有区别学习和精心设计的特征,已经取得了令人印象深刻的性能。然而,这些方法依赖于在多个尺度上详尽地应用零件模板,这是非常昂贵的。此外,它们在类的数量上是可伸缩的,这对像ImageNet这样的现代数据集来说是一个挑战。 为了解决前一个问题,Lampert等人使用分支绑定策略来避免计算所有可能的对象位置。为了解决后一个问题,Song et al.使用了一个低维部件基,在所有对象类中共享。基于哈希算法的零件检测也取得了良好的结果。 另一种不同的工作,与我们的工作更接近,是基于对象可以本地化的想法,而不必知道它们的类。其中一些方法建立在自底向上无阶级分割[9]的基础上。通过这种方式得到的片段可以使用自上而下的反馈进行评分。基于同样的动机,Alexe等人使用一种廉价的分类器对对象假设是否为对象进行评分,并以这种方式减少了后续检测步骤的位置数量。这些方法可以被认为是多层模型,分割作为第一层,分割分类作为后续层。尽管它们编码了已证明的感知原理,但我们将表明,有更深入的模型,充分学习可以导致更好的结果。 最后,我们利用了DeepLearning的最新进展,最引人注目的是Krizhevsky等人的工作。我们将他们的边界盒回归检测方法扩展到以可扩展的方式处理多个对象的情况。然而,基于dnn的回归已经被Szegedy等人应用到对象掩模中。最后一种方法实现了最先进的检测性能,但由于单个掩模回归的成本,不能扩展到多个类。 我们的目标是通过预测一组表示潜在对象的边界盒来实现一种与类无关的可扩展对象检测。更准确地说,我们使用了深度神经网络(DNN),它输出固定数量的包围盒。此外,它为每个盒子输出一个分数,表示这个盒子包含一个对象的网络信任度。 为了形式化上述思想,我们将i-thobject框及其相关的置信度编码为最后一网层的节点值: Bounding box: 我们将每个框的左上角和右下角坐标编码为四个节点值,可以写成vectorli∈R4。这些坐标是归一化的w. r. t.图像尺寸,以实现图像绝对尺寸的不变性。每个归一化坐标是由最后一层的线性变换产生的。 Confidence: 置信度:包含一个对象的盒子的置信度得分被编码为单个节点valueci∈[0,1]。这个值是通过最后一个隐藏层的线性变换产生的,后面跟着一个sigmoid。 我们可以组合边界盒位置sli,i∈{1,…K}为一个线性层。同样,我们可以将所有置信区间ci,i∈{1,…K}作为一个s型层的输出。这两个输出层都连接到最后一个隐藏层 在推理时,我们的算法生成kbound盒。在我们的实验中,我们使用ek = 100和K= 200。如果需要,我们可以使用置信分数和非最大抑制在推理时获得较少数量的高置信框。这些盒子应该代表对象。因此,它们可以通过后续的分类器进行分类,实现目标检测。由于盒子的数量非常少,我们可以提供强大的分类器。在我们的实验中,我们使用另一个dnn进行分类。 我们训练一个DNN来预测每个训练图像的边界框及其置信度得分,以便得分最高的框与图像的groundtruth对象框很好地匹配。假设对于一个特定的训练例子,对象被标记为boundingboxesgj,j∈{1,…,M}。在实践中,pre- dictionary的数量远远大于groundtruthboxm的数量。因此,我们试图只优化与地面真实最匹配的预测框子集。我们优化他们的位置,以提高他们的匹配度,最大化他们的信心。与此同时,我们将剩余预测的置信度最小化,这被认为不能很好地定位真实对象。为了达到上述目的,我们为每个训练实例制定一个分配问题。Wexij∈{0,1}表示赋值:xij= 1,如果第i个预测被赋值给第j个真对象。这项任务的目标可以表示为 其中,我们使用标准化边界框坐标之间的el2距离来量化边界框之间的不同。此外,我们希望根据分配x优化盒子的可信度。最大化指定预测的置信度可以表示为  最终的损失目标结合了匹配损失和信心损失 受式1的约束。α平衡了不同损失条款的贡献。 对于每个训练例子,我们通过解决一个最佳的赋值x*的预测到真实的盒子 约束执行赋值解决方案。这是二部匹配的一种变体,是一种多项式复杂度匹配。在我们的应用程序中,匹配是非常便宜的——每幅图像中标记的对象的数量少于一打,而且在大多数情况下只有很少的对象被标记。然后,通过反向传播优化网络参数。例如,反向传播算法的一阶导数计算w、r、t、l和c 尽管上述定义的损失在原则上是足够的,但三次修改使其有可能更快地达到更好的准确性。第一个修改是对地面真实位置进行聚类,并找到这样的聚类/质心,我们可以使用这些聚类/质心作为每个预测位置的先验。因此,鼓励学习算法为每个预测位置学习一个残差到一个先验。 第二个修改涉及到在匹配过程中使用这些先验:不是将N个groundtruth位置与K个预测进行匹配,而是在K个先验和groundtruth之间找到最佳匹配。一旦匹配完成,就会像之前一样计算目标的置信度。此外,位置预测损失也不变:对于任何一对匹配的(目标,预测)位置,其损失定义为groundtruth和对应于匹配先验的坐标之间的差值。我们把使用先验匹配称为先验匹配,并假设它促进了预测的多样化。  需要注意的是,尽管我们以一种与类无关的方式定义了我们的方法,但我们可以将它应用于预测特定类的对象盒。要做到这一点,我们只需要在类的边框上训练我们的模型。此外,我们可以预测每个类的kbox。不幸的是,这个模型的参数数量会随着类的数量线性增长。此外,在一个典型的设置中,给定类的对象数量相对较少,这些参数中的大多数会看到很少有相应梯度贡献的训练示例。因此,我们认为我们的两步过程——首先本地化,然后识别——是一个更好的选择,因为它允许使用少量参数利用同一图像中多个对象类型的数据 我们使用的本地化和分类模型的网络架构与[10]使用的网络架构相同。我们使用Adagrad来控制学习速率衰减,128的小批量,以及使用多个相同的网络副本进行并行分布式训练,从而实现更快的收敛。如前所述,我们在定位损失中使用先验——这些是使用训练集上的均值来计算的。我们还使用α = 来平衡局部化和置信度损失。定位器可以输出用于推断的种植区以外的坐标。坐标被映射和截断到最后的图像区域。另外,使用非最大抑制对盒进行修剪,Jaccard相似度阈值为。然后,我们的第二个模型将每个边界框分类为感兴趣的对象或“背景”。为了训练我们的定位器网络,我们从训练集中生成了大约3000万幅图像,并对训练集中的每幅图像应用以下步骤。最后,样品被打乱。为了训练我们的本地化网络,我们通过对训练集中的每一幅图像应用以下步骤,从训练集中生成了大约3000万幅图像。对于每幅图像,我们生成相同数量的平方样本,使样本总数大约为1000万。对于每幅图像,样本被桶状填充,这样,对于0 - 5%、5 - 15%、15 - 50%、50 - 100%范围内的每个比例,都有相同数量的样本,其中被包围框覆盖的比例在给定范围内。训练集和我们大多数超参数的选择是基于过去使用非公开数据集的经验。在下面的实验中,我们没有探索任何非标准数据生成或正则化选项。在所有的实验中,所有的超参数都是通过对训练集。 Pascal Visual Object Classes (VOC)挑战是最常用的对象检测算法基准。它主要由复杂的场景图像组成,其中包含了20种不同的对象类别的边界框。在我们的评估中,我们关注的是2007版VOC,为此发布了一个测试集。我们通过培训VOC 2012展示了结果,其中包含了大约。11000张图片。我们训练了一个100框的定位器和一个基于深度网络的分类器。 我们在一个由1000万作物组成的数据集上训练分类器,该数据集重叠的对象至少为 jaccard重叠相似度。这些作物被标记为20个VOC对象类中的一个。•2000万负作物与任何物体盒最多有个Jaccard相似度。这些作物被贴上特殊的“背景”类标签。体系结构和超参数的选择遵循。 在第一轮中,定位器模型应用于图像中最大-最小中心方形作物。作物的大小调整到网络输入大小is220×220。单次通过这个网络,我们就可以得到上百个候选日期框。在对重叠阈值为的非最大抑制后,保留评分最高的前10个检测项,并通过21路分类器模型分别通过网络进行分类。最终的检测分数是给定盒子的定位分数乘以分类器在作物周围的最大方形区域上评估的分数的乘积。这些分数通过评估,并用于计算精确查全曲线。 首先,我们分析了本地化器在隔离状态下的性能。我们给出了被检测对象的数量,正如Pascal检测标准所定义的那样,与生成的包围框的数量相对比。在图1中,我们展示了使用VOC2012进行训练所获得的结果。此外,我们通过使用图像的最大中心面积(max-center square crop)作为输入以及使用两个尺度(second scale)来给出结果:最大中心面积(max-center crop)的第二个尺度(select3×3windows的大小为图像大小的60%)正如我们所看到的,当使用10个边界框的预算时,我们可以用第一个模型本地化的对象,用第二个模型本地化48%的对象。这显示出比其他报告的结果更好的性能,例如对象度算法达到42%[1]。此外,这个图表显示了在不同分辨率下观察图像的重要性。虽然我们的算法通过使用最大中心作物获得了大量的对象,但当使用更高分辨率的图像作物时,我们获得了额外的提升。进一步,我们用21-way分类器对生成的包围盒进行分类,如上所述。表1列出了VOC 2007的平均精度(APs)。达到的平均AP是,与先进水平相当。注意,我们的运行时间复杂度非常低——我们只使用top10框。示例检测和全精度召回曲线分别如图2和图3所示。值得注意的是,可视化检测是通过仅使用最大中心方形图像裁剪,即使用全图像获得的。然而,我们设法获得了相对较小的对象,例如第二行和第二列的船,以及第三行和第三列的羊。 在本工作中,我们提出了一种新的方法来定位图像中的对象,该方法可以预测多个边界框的时间。该方法使用深度卷积神经网络作为基本特征提取和学习模型。它制定了一个能够利用可变数量的groundtruth位置的多箱定位成本。在“一个类一个箱”方法的情况下,对1000个盒子进行非max-suppression,使用与给定图像中感兴趣的DeepMulti-Box方法相同的准则,并学习在未见图像中预测这些位置。 我们在VOC2007和ILSVRC-2012这两个具有挑战性的基准上给出了结果,在这两个基准上,所提出的方法具有竞争力。此外,该方法能够很好地预测后续分类器将探测到的位置。我们的结果表明,deepmultibox的方法是可扩展的,甚至可以在两个数据集之间泛化,就能够预测感兴趣的定位,甚至对于它没有训练的类别。此外,它能够捕获同一类物体的多种情况,这是旨在更好地理解图像的算法的一个重要特征。 在未来,我们希望能够将定位和识别路径折叠到一个单一的网络中,这样我们就能够在一个通过网络的一次性前馈中提取位置和类标签信息。即使在其当前状态下,双通道过程(本地化网络之后是分类网络)也会产生5-10个网络评估,每个评估的速度大约为1个CPU-sec(现代机器)。重要的是,这个数字并不与要识别的类的数量成线性关系,这使得所提出的方法与类似dpm的方法非常有竞争力。

论文原文:

YOLO(you only look once)是继RCNN、faster-RCNN之后,又一里程碑式的目标检测算法。yolo在保持不错的准确度的情况下,解决了当时基于深度学习的检测中的痛点---速度问题。下图是各目标检测系统的检测性能对比:

如果说faster-RCNN是真正实现了完全基于深度学习的端到端的检测,那么yolo则是更进一步,将 目标区域预测 与 目标类别判断 整合到单个神经网络模型中。各检测算法结构见下图:

每个网格要预测B个bounding box,每个bounding box除了要回归自身的位置之外,还要附带预测一个confidence值。这个confidence代表了所预测的box中含有object的置信度和这个box预测的有多准两重信息,其值是这样计算的:

其中如果有object落在一个grid cell里,第一项取1,否则取0。第二项是预测的bounding box和实际的groundtruth之间的IoU值。

每个bounding box要预测(x, y, w, h)和confidence共5个值,每个网格还要预测一个类别信息,记为C类。即SxS个网格,每个网格除了要预测B个bounding box外,还要预测C个categories。输出就是S x S x (5*B+C)的一个tensor。(注意:class信息是针对每个网格的,即一个网格只预测一组类别而不管里面有多少个bounding box,而confidence信息是针对每个bounding box的。)

举例说明: 在PASCAL VOC中,图像输入为448x448,取S=7,B=2,一共有20个类别(C=20)。则输出就是7x7x30的一个tensor。整个网络结构如下图所示:

在test的时候,每个网格预测的class信息和bounding box预测的confidence信息相乘,就得到每个bounding box的class-specific confidence score:

等式左边第一项就是每个网格预测的类别信息,第二三项就是每个bounding box预测的confidence。这个乘积即encode了预测的box属于某一类的概率,也有该box准确度的信息。

得到每个box的class-specific confidence score以后,设置阈值,滤掉得分低的boxes,对保留的boxes进行NMS(非极大值抑制non-maximum suppresssion)处理,就得到最终的检测结果。

1、每个grid因为预测两个bounding box有30维(30=2*5+20),这30维中,8维是回归box的坐标,2维是box的confidence,还有20维是类别。其中坐标的x,y用bounding box相对grid的offset归一化到0-1之间,w,h除以图像的width和height也归一化到0-1之间。

2、对不同大小的box预测中,相比于大box预测偏一点,小box预测偏一点肯定更不能被忍受的。而sum-square error loss中对同样的偏移loss是一样。为了缓和这个问题,作者用了一个比较取巧的办法,就是将box的width和height取平方根代替原本的height和width。这个参考下面的图很容易理解,小box的横轴值较小,发生偏移时,反应到y轴上相比大box要大。其实就是让算法对小box预测的偏移更加敏感。

3、一个网格预测多个box,希望的是每个box predictor专门负责预测某个object。具体做法就是看当前预测的box与ground truth box中哪个IoU大,就负责哪个。这种做法称作box predictor的specialization。

4、损失函数公式见下图:

在实现中,最主要的就是怎么设计损失函数,坐标(x,y,w,h),confidence,classification 让这个三个方面得到很好的平衡。简单的全部采用sum-squared error loss来做这件事会有以下不足:

解决方法:

只有当某个网格中有object的时候才对classification error进行惩罚。只有当某个box predictor对某个ground truth box负责的时候,才会对box的coordinate error进行惩罚,而对哪个ground truth box负责就看其预测值和ground truth box的IoU是不是在那个cell的所有box中最大。

作者采用ImageNet 1000-class 数据集来预训练卷积层。预训练阶段,采用网络中的前20卷积层,外加average-pooling层和全连接层。模型训练了一周,获得了top-5 accuracy为(ImageNet2012 validation set),与GoogleNet模型准确率相当。

然后,将模型转换为检测模型。作者向预训练模型中加入了4个卷积层和两层全连接层,提高了模型输入分辨率(224×224->448×448)。顶层预测类别概率和bounding box协调值。bounding box的宽和高通过输入图像宽和高归一化到0-1区间。顶层采用linear activation,其它层使用 leaky rectified linear。

作者采用sum-squared error为目标函数来优化,增加bounding box loss权重,减少置信度权重,实验中,设定为\lambda _{coord} =5 and\lambda _{noobj}= 。

作者在PASCAL VOC2007和PASCAL VOC2012数据集上进行了训练和测试。训练135轮,batch size为64,动量为,学习速率延迟为。Learning schedule为:第一轮,学习速率从缓慢增加到(因为如果初始为高学习速率,会导致模型发散);保持速率到75轮;然后在后30轮中,下降到;最后30轮,学习速率为。

作者还采用了dropout和 data augmentation来预防过拟合。dropout值为;data augmentation包括:random scaling,translation,adjust exposure和saturation。

YOLO模型相对于之前的物体检测方法有多个优点:

1、 YOLO检测物体非常快

因为没有复杂的检测流程,只需要将图像输入到神经网络就可以得到检测结果,YOLO可以非常快的完成物体检测任务。标准版本的YOLO在Titan X 的 GPU 上能达到45 FPS。更快的Fast YOLO检测速度可以达到155 FPS。而且,YOLO的mAP是之前其他实时物体检测系统的两倍以上。

2、 YOLO可以很好的避免背景错误,产生false positives

不像其他物体检测系统使用了滑窗或region proposal,分类器只能得到图像的局部信息。YOLO在训练和测试时都能够看到一整张图像的信息,因此YOLO在检测物体时能很好的利用上下文信息,从而不容易在背景上预测出错误的物体信息。和Fast-R-CNN相比,YOLO的背景错误不到Fast-R-CNN的一半。

3、 YOLO可以学到物体的泛化特征

当YOLO在自然图像上做训练,在艺术作品上做测试时,YOLO表现的性能比DPM、R-CNN等之前的物体检测系统要好很多。因为YOLO可以学习到高度泛化的特征,从而迁移到其他领域。

尽管YOLO有这些优点,它也有一些缺点:

1、YOLO的物体检测精度低于其他state-of-the-art的物体检测系统。

2、YOLO容易产生物体的定位错误。

3、YOLO对小物体的检测效果不好(尤其是密集的小物体,因为一个栅格只能预测2个物体)。

关于阅读相关论文题目

课题提出的背景在小学语文教学中,指导学生开展课外阅读是其重要组成部分。阅读与口头表达、书面表达的关系是一个语文教学的老话题,早有定论。阅读多、阅读广泛促进学生口头、笔头表达能力的发展,而提高小学生写作能力也必须大大提高学生的阅读量。《语文课程标准》(实验稿)在阶段目标第一学段中指出:“喜欢阅读,感受阅读的乐趣……借助读物中的图画阅读……在阅读中积累词语。阅读浅近的童话、语言、故事……诵读儿歌、童谣和浅近的古诗,展开想象,获得初步的情感体验,感受语言的优美……积累自己喜欢的成语和格言警句。背诵优秀诗文50篇(段)。课外阅读总量不少于5万字。喜爱图书,爱护图书。”第二学段中指出:“……初步学会默读……能复述叙事性作品的大意,初步感受作品中生动形象和优美的语言,关心作品中人物的命运和喜怒哀乐,与他人交流自己的阅读感受……积累课文中的优美词语、精彩句段,以及在课外阅读和生活中获得的语言材料。诵读优秀诗文,注意在诵读过程中体验情感,领悟内容。背诵优秀诗文50篇(段)。养成读书看报的习惯,收藏并与同学交流图书资料。课外阅读总量不少于40万字。” 第三学段中指出:“……学习浏览,扩大知识面,根据需要搜集信息……诵读优秀诗文……背诵优秀诗文60篇(段)。利用图书馆、网络等信息渠道尝试进行探究性阅读。扩展自己的阅读面,课外阅读总量不少于100万字。”著名的语言学家吕叔湘先生说:“少数语文水平较高的学生,你要问他的经验,异口同声说是得益于课外看书。”时代在发展,电视、录像、广播、网络等媒体对学生深深吸引,造成学生对文本的不喜欢。因而学生厌读课外书的现象普遍存在。学校老师比较重视语文课堂教学,但对课外阅读并不重视,甚至不问不管。即使向学生发出课外阅读的号召,也不对学生进行引导、培养。当前,对课外阅读指导与培养学生口头、笔头表达能力的相关研究可供借鉴的经验不多,教师无从下手,也就畏而避之。农村文化环境较落后、家长文化水平普遍偏低、学生接受各种教育的途径少、家长适时引导教育孩子的意识较差。因此,与城市学生相比,口头表达和写作的能力较差。二、课题研究目标(一)我们知道培养小学生的课外阅读兴趣,即增加语言文字摄入量,可以提高小学生的写作能力,但是通过哪些有效途径可以培养小学生的阅读兴趣?选择哪些阅读材料或内容?采取哪些阅读方式以及给学生多少阅读量,有利于培养阅读兴趣和提高阅读能力?而在读与写之间,如何借助读提高写的能力?这里有许许多认识上和实际操作上的模糊之处。同时,阅读兴趣的培养,阅读内容、方法在各年级段上如何侧重?特别是高年级段写作能力的培养如何实施,课外阅读与语文课教学如何相兼容?如何结合?如何与我们学校的具体情况和特点结合?寻找有效的途径,这是本课题要研究的。(二)具体目标第一阶段(低年级):以识字教学为重点,要求在听、说、读、写的过程中在两年内突破认识1173个常用字的界限,达到能认识2000个左右的常用字,大幅度增加识字量,学习结合上下文和生活实际了解词句的意思。学习正确、流利、有感情地朗读课文。默读课文不出声,不指读,一边读一边想。每学年背诵30篇以上优秀诗文。阅读浅显的儿童读物,能大致了解内容。二年级课外阅读不少于5万字。第二阶段(中年级):以阅读教学为重点,辅以作文教学。在听、说、读、写过程中让学生通过大量阅读(年阅读量达到300篇左右)来有效地提高阅读质量(包括理解水平、记忆水平与阅读速度),能联系上下文或查字典理解词句的意思。能初步把握文章的主要内容,揣摩文章的叙述顺序,体会作者的思想感情,初步领悟作者的一些表达方法。能正确、流利、有感情地朗读课文。默读有一定速度。每学年背诵30篇左右优秀诗文。能借助字典或有关资料独立阅读程度适合的读物,了解主要内容。逐步养成课前预习、课后复习、课外阅读的习惯。课外阅读三年级不少于15万字,四年级不少于30万字。第三阶段(高年级):以作文教学为重点,阅读程度适合的文章,能理解主要内容,领会有一定内涵的词句,体会作者表达的思想感情,并有自己的见解,能领悟作者的一些表达方法。能正确、流利、有感情地朗读课文。阅读其他文章,稍作准备能正确流利地朗读。默读速度每分钟不少于300字。每学年背诵20篇以上的优秀诗文。学习浏览,能根据需要收集有关材料。课外阅读每学年不少于50万字。逐步培养读书记笔记的习惯。在听、说、读、写过程中能写出有中心、有条理、有真情实感的简单记叙文和常用应用文,做到在40分钟内写出400字左右的文章,有效提高写作水平。三、实验对象、实验方法和理论依据(一)实验对象的确定我们的教学是面向全体学生的,所以所有的学生都是我们的实验对象。但是,考虑到师资、时间与精力以及操作方便等问题,我们决定分阶段定班级进行实验。实验班级是随机抽样确定的,在低中高三个年级段各确定一个实验班,即一(1)班、三(1)班、五(1)班。实验班与对照班级情况基本一致。(二)实验方法研究方法以经验总结法、教育实验法为主,并与教育调查法、文献资料法相结合,通过制定研究计划、实践、反思、分析、不断调整,使课题研究稳步实施。同时,进行问卷调查,进行定量定性分析,了解各阶段的初步成果,并通过文献了解吸取他人的研究成果,以指导我们的课题研究。(三)理论依据我们提出实验课题的理论假设就是:在小学语文教学中,分阶段(低年级段、中年级段、高年级段)突破阅读关。这个实验构想的理论主要来自以下几方面。1、马克思主义哲学原理任何事物的发展都是从量变到质变,又从质变到新的量变。事物的发展是从量变开始的,量变达到一定的程度,突破了一定的界限,就会出现质变。小学语文教学也是如此,学生认识一个个汉字,达到一定的量,就能阅读;阅读达到一定的量,就能作文。正如古人所云:“能读千赋,则能为文。”小学语文教学过程中有着许多矛盾,不同的学习阶段有不同的主要矛盾。低年级阶段,语文学习的主要矛盾是识字。如果在这个阶段集中解决了识字问题,中年级语文教学的主要矛盾则是阅读。当阅读突破一定数量,学生具备阅读的能力以后,作文就成了主要矛盾,所以高年级以作文训练为重点。2、耗散结构理论耗散结构理论认为:涨落导致有序。涨落是指系统某个变量和行为对平均值发生的偏离,它使系统离开原来的状态或轨道。系统处于不同状态时,涨落起着迥然不同的作用。当系统处于稳定状态时,涨落是一种干扰,它引起了系统运动轨道的混乱,导致了无序。此时,系统具有抗干扰的能力,它迫使涨落逐步衰减,使系统又回到原来的状态和轨道。如果系统处于不稳定的临界状态,涨落不仅不衰减,反而放大成为“巨涨落”,使系统从不稳定状态跃迁到一个新的有序状态。耗散结构理论还认为:远离平衡(即非平衡)的开放系统,才能不断地获取和消散外界的能力和分子,才能维持系统的生存,并形成富有生命力的、稳定化的、高度有序的结构——耗散结构。耗散结构理论对我们的启示是:小学语文教学新体系要成为宏观有序的耗散结构,必须要形成识字教学、阅读教学、作文教学的巨涨落。在涨落的过程中,字、词、句、段、篇,听、说、读、写、书的训练要远离平衡态,使各个子系统之间产生相干效应。识字教学高潮阶段,阅读教学、作文教学要为识字服务;阅读教学高潮阶段,识字教学、作文教学要为阅读服务;作文教学高潮阶段,识字教学、阅读教学要为作文服务。此外小学语文教学要做到课内带课外,成为一个开放的系统。3、激发学生浓厚的阅读兴趣教育心理学认为,兴趣是激发学习动机的最现实、最活跃的因素。美国心理学家布鲁纳也指出:“学习的最好刺激,乃是对所学材料的兴趣。”要想使学生博览课外书籍,就得先千方百计点燃学生心灵上兴趣之火。有了饱满的读书兴趣,学生才会对课外阅读产生强烈的需要,积极地投身其中。孔子曰:“知之者不如好之者,好之者不如乐之者。”兴趣是学生参与的原动力,要让学生积极主动地参与课外阅读,教师必须创造某种条件或利用他们已有的其它行为动机和需要的迁移,使阅读成为他们生活中所必需的东西。例如,利用晨会课,借用讲故事或内容简介的形式,向同学们介绍一本好书。在给孩子们讲故事讲到最紧张的时候,突然刹车。学生总催促教师讲下去,这时可把书借给他们看,学生一拿到书就会如饥似渴地去读,教师可趁势向学生介绍相关的其它作品。这样一来,课外阅读也就成为同学们的一件乐事,一种享受。教师要善于唤起和利用学生读书兴趣,促使他们兴味盎然地去阅读、体会,积累语言信息,使语言仓库里有丰厚的积蓄,需用时,才能游刃有余,写起文章来,才能妙笔生花。实验教师利用各种方法充分发挥学生的积极主动性,使得学生对阅读产生极大的兴趣,就能变“要我阅读” 为“我要阅读”。学生扩大了阅读面,增加了阅读量,积蓄了足够的内存,还怕大量而快速的输出吗?四、课题的实施过程与措施(一)研究的主要阶段主要分为四个阶段。第一阶段为2000年至2001年9月,即课题立项之前。这一阶段是课题研究及课题立项的准备阶段,主要是了解同类课题研究现状,作一些调查研究,建立课题的实验设想,撰写研究方法和研究计划。第二阶段为2001年9月至2002年8月。这是初步探索阶段,主要工作是建立课题研究组,进行课题成员培训,各实验班级拟定各自的实验计划,进行初步的实验工作。第三阶段为2002年9月至2003年8月。这是深入研究阶段,主要工作为定期开展课题研究的研讨活动——定期开展实验研究课,研究交流实验计划、实施办法,定期进行形成性检测和阶段性小结,并在实验基础上汇总并修订学生使用的阅读材料,以及资料收集和成果总结工作。第四阶段为2003年9月至2003年12月。这是总结思考阶段,主要工作是课题组整理资料、进行数据处理、结果分析和撰写研究报告。(二)研究的主要内容和措施1、识字教学——一字带多字。为了提高识字教学的效率,使学生尽快掌握2500多个常用字,在识字教学中,低年级学生从阅读带注音、图文并茂的作品入手,以逐步认识与掌握生字的音、形、义,展开丰富的联想,带出并学习多个生字。多次反复运用与巩固,熟能生巧,通过已会的汉字带出一些常用字,突破识字关,提高阅读能力。2、阅读教学——一篇带多篇。阅读材料大量涌现,而现行语文课本课文少,学生语文学习的时间又有限。为了在有限的时间内提高阅读教学效率,必须改革阅读教学方法。学生在课内阅读了一篇课文,在课外就配合着阅读几篇思想内容或体裁写法相近的文章。例如,《一个苹果》是以一物为主要线索贯穿全文,配合这篇课文,让学生在课外阅读《一片松叶的来历》《一把军用小刀》等文章。这样,学生就能够及时地运用在课堂上所学到的方法,举一反三,闻一而知十。为了使学生在小学中年级段突破阅读关,我们在教学中采用了“一篇带多篇”的方法。根据教材安排的训练重点,教师教学一篇课文后,带出类似的几篇文章,让学生自学运用,大大地增加阅读量。(1)基本程序:在阅读教学一般程序的基础上,根据“一篇带多篇”的特点,建立了这样的教学基本程序。第一步示范学习一篇(段),学习阅读的基本方法;第二步尝试学习一篇,巩固前面所学到的方法,培养阅读能力;第三步带动自学同类的文章一篇或几篇,运用和发展阅读方法,提高阅读能力。(2)带动课外阅读:每周开设1节课外读书课,指导学生运用所学方法进行大量的课外阅读,提高阅读速度,增加阅读量,增强阅读能力。(3)带动语文实践:定期开设语文实践课,进一步培养学生的阅读兴趣和习惯,发展学生的阅读能力。3、作文教学——读多篇写一篇。从教学法的角度看,作文过程是运用语言文字对思想内容进行整理、加工的过程。叶圣陶先生说:“通常作文,胸中先有一腔积蓄,临到执笔,拿出来就是,是很自然的。”由此可见,多阅读、从阅读中得到“写作的榜样”,是作文教学的实质之所在。为了提高作文教学的效率,突破作文关,我们主要采取了“读多篇写一篇”的作文教学方法。按照状物、记事、写景、写人的顺序进行分类训练。低年级以句段状物为主,写写花草树木、瓜果蔬菜、家畜动物、庄稼食物、房间教室等;中年级以段与篇为主,写一些熟悉的人、感兴趣的事、喜欢的物、四季景色、家乡山水、美丽校园等;高年级则以想象作文为主,比如:二十年后的世界、正从东方崛起的中国、十年后的苏州、腾飞的苏州高新区、展望浒关工业园等。再如写一些感想作文,读后感和观后感,剧评和影评等。以读带写,读多篇写一篇。即读完在内容上或写作方法上相类似的几篇文章,指导学生学习这样的方法写一篇。4、把握课外阅读的时机。学生对课外阅读光有兴趣还不行,我们还得通过课外阅读这一途径来培养学生的能力,结合语文课堂教学的实际情况和学生特点,抓住以下两大时机为学生提供课外阅读的条件、机会。(1)着眼课文学习进行的课外阅读。从课文这个出发点,可以走向四面八方,精读一篇课文,可以带读许多相关的书,如《麻雀》一文,它是俄国著名作家屠格涅夫写的,他的作品构思新颖,视角独特,语言精练,文字优美。要想体会他的风格,同学们课后可以阅读他的代表作《猎人笔记》。从另一方面,《麻雀》一文表现的是伟大的母爱,我国古代有位诗人也写了一首诗来歌颂母爱,那就是孟郊的《游子吟》。如此引导,足可见围绕课文进行课外阅读,天地是多么广阔。(2)围绕课内写作进行的课外阅读。作文,多少学生对它朝思暮想,多少学生为它伤透了脑筋。但是作文的道理和方法,光靠老师讲,学生是掌握不了的,只有在完成一定阅读量后,学生才能悟出来。因而,围绕课堂上的写作训练,辅之以适当的课外阅读,以读来促写。阅读教学与写作教学相结合,在阅读的过程中,学习范文中的写作因素,尤其是针对学生的写作实际,提供可资借鉴的写作方法,同时,还注意学习作者是怎样观察和构思的,又是怎样遣词造句的,针对学生在作文中存在的问题,有的放矢,让学生通过课外阅读找出自己的差距等等。安排学生的习作练习要以范文为榜样,以模仿为手段,以生活经验为内容,以片断训练为形式。每次作文后,让学生把优秀作文誊写出来,装订成册,张贴在“学习园地”中,特别好的学生习作向外投稿,既鼓励作者,又鞭策读者。5、开展丰富多彩的读书活动。开展图画作文、音乐作文、活动作文训练;组织学生学当小记者,开展采访活动,为广播电台、报刊写稿;开展社会调查,撰写调查小报告,举行“与好书交朋友,做有理想的人”等读书活动。(1)举办“图书展览会”。每学期举办一两次“图书展览会”,比如展出记载老一辈无产阶级革命家为振兴中华而斗争的故事,让学生在阅读中同时受到他们为祖国的忘我精神的鼓舞;展出有关我国和外国科学家的故事,学习他们专心致志于科学事业的精神。除了图书以外还陈列上述人物的照片、名言、警句;还有生动有趣的文艺读物,启发阅读兴趣。(2)充分发挥图书室功能,开设读书课。阅览室定期开放,由专人负责,创设阅读氛围。每周安排一节读书课,保证学生的阅读时间。布置一定的课外阅读作业。定期交流阅读情况,比比谁知道的故事多、名人多,让学生在竞争中阅读。(3)订阅报刊、设立“中队图书角”。低年级至少人手一刊,中年级至少一人两刊。各班发动学生把自己的图书带到班级,办好“班级图书角”。可在图书角上张贴“爱护书籍公约”,教育学生爱护图书,并选好图书管理员认真负责借书还书,另外教学生修理书的本领,学会给书包皮、制作美丽的书签,小书架等,从小培养队员爱护图书的良好习惯。(4)背诵优秀的诗文。背诵优秀诗文,增加学生的语文积累。定期与不定期开展赛诗会、故事会等,并评出每期“古诗状元”“故事大王”等。(5)分阶段定类别增加语言积累。老师利用班会课、班队课、活动课等有利时机,启发、引导学生阅读,以增加语言积累。低年级:阅读儿歌、谜语、童话故事和神话故事;中年级:阅读歇后语、寓言故事和成语故事以及一些古今名著;高年级:阅读现代诗歌、名人故事和历史故事以及一些中外名著。各班在黑板报上开辟“每周一诗”(三年级起改为“每周两诗”)、“名言警句”等栏目,定期定时更换,由课代表带学生阅读、背诵。黑板一侧开设“好词佳句”栏,内容可有老师提供,也可由学生轮流提供。(6)写读书笔记。在学生产生阅读兴趣的基础上,让孩子们学会分析和思考,有效的办法是指导写读书笔记。学生语文水平有一定的差异性,根据学生的这一特点,采用了不同的训练形式,低年级只要求简单地记下读书年月日、书名、书籍作者。三年级增加一栏,简要讲述书的内容和自己喜欢的地方。四五年级写读后感,摘录书中精彩的词句,摘抄佳作写一两句点评,写读后感。班级举办优秀读书笔记展览。(7)开展“读书讨论会”。在班里举办读书讨论会、读书报告会、心得交流会、阅读方法交流会、知识竞赛等,可以从知识、能力等角度了解学生课外阅读的情况,正英国作家肖伯纳所说:我的思想交流给你,你把你的思想交流给我,那么我们俩人同时掌握了两种思想。实际上,这也是把个体阅读纳入群体阅读的一种努力。选择能引起朗读兴趣,又有不同看法的著作,如一些古典作品,确定书籍后,出好讨论题,讨论前,每个学生读完并写出感想、体会,作为会上主要发言。(8)“红领巾读书月”活动。为引起队员对书的热爱,举办爱国主义教育为主题的“我们爱祖国读书月活动”,以阅读科普读物为主题的“十万个为什么读书月活动”,以学雷锋树新风为主题的“学习雷锋读书月活动”等等。五、研究的成效(一)通过课题研究,培养了学生课外阅读兴趣,提高了写作能力,提高了小学生的语文综合素质。(二)提高了教师的教学水平和研究能力1、课题的实践研究,促进了教师的语文教学水平。教师在阅读与写作关系处理上意识增强,摸索到了增加学生阅读量、提高写作能力的有效途径。2、教师学会了课题研究方法,获得了一批科研成果。(三)在语文教学上形成了敬恩小学的学校特色通过课题研究,语文教师善于把激发学生阅读兴趣与语文课堂教学相结合、善于把阅读教学与作文教学相结合,使阅读、作文、课堂教学相互影响、相互促进。六、存在的问题与结改通过两年多的实践研究,我们取得了一些可喜的成绩。但是,也存在一些问题。师生文章大胆地向外投稿方面还比较欠缺与保守。今后,在这方面我们要好好努力,下大力气改善。实验中,我们应该让教师稳定,跟班教学。这样,实验的条理性、层次性、循序渐进性会更强,取得的实验效果也就会更好。要形成属于我们自己的一套特色化的理论与实验方法,有待进一步加强系统性、科学性。

像我,我将读书当做一种享受,没什么可比舒静地坐在书房里看书更享受生活的了。下面给大家带来一些关于阅读的高三 议论文 1000字,希望对大家有所帮助。

关于阅读的高三议论文1

阅读是一种享受,给予我们精神的寄托,阅读中,我们会有无限的乐趣。休闲时,坐在公园的凳子上或是庭院里,一边享受阳光的沐浴和风的轻抚,一边读一些优美的 散文 ,你会觉得心情舒畅,一切都很好美!

我爱阅读,正如明代王心斋所说“乐是乐此学,学是学此乐,不乐不是学,不学不是乐”。因快乐而阅读,因阅读而快乐。知识的海洋无穷无尽,我通过阅读获取知识,了解 文化 发展,体会思想得到满足的愉悦。阅读不需要应试性的去读,而是带着一种享受的感觉去读,心烦意乱时,可以随意翻翻,或许文中的某段语句会让你静下心来,心情闲适时,阅读更是一种精神满足感的催化剂,让你感到世界的变化也有美丽之处。

阅读是发动机,给予我们奋斗的动力。当我们遭受挫折,意志消沉或心情烦闷时,何不去找一些励志作品读一读呢?比如罗曼。罗兰的《名人传》,奥斯特洛夫斯基的《钢铁是怎样炼成的》。看如何磨练意志,从而使自己勇敢的面对困难,乐观的看待一切。阅读让生活变得充实,书卷中的意念像一股无形的动力,影响我们的思想和心态。

阅读是塑造一个人内在品格的重要途径。书就是社会,一本好书就是一个好的世界,好的社会,它能陶冶人的感情与气质,使人高尚。冰心也敬告我们“读书好,多读书,读好书”。犹记“谈笑有鸿儒,往来无白丁。可以调素琴,阅金经。”并达到“斯是陋室,惟吾德馨。”的境界。我想这其中必不可缺阅读的功劳吧!阅读,是用心在读,每次阅读,都是我们心灵的一次旅行。好的阅读带给心灵的充盈与美满,提高人的内在修养与外在气质,从而成为人的一种享受,一份乐趣

“书中自有黄金屋,书中自有颜如玉,书中自有千钟粟,书中自有车如簇”。读书可以明智,读书可以使人心理健康,读书可以使人心态平衡,读书可以使生活滋润起来,读书可以使人生潇洒开去。阅读是一种享受,如品茶,似喝酒,若弹琴,像下棋,耐人寻味!

关于阅读的高三议论文2

弗朗西斯·培根说过:“读书给人以乐趣,给人以光彩,给人以才干。”那么,阅读到底是为了什么呢?怎么样才能让自己爱上阅读呢?《为乐趣而读书》会告诉你答案。

《为乐趣而读书》主要内容:我们阅读不是为了自己取得学位,也不是为了以后的生活。阅读不仅仅只是一种乐趣,它还会使你的生活丰富多彩,但前提是你要学会享受书本。谁都没有义务要去读诗、小说或者是一些文学作品,它只能为自己的乐趣而读。如果当自己看了一本自己觉得不合胃口的书,那么请就此搁下,因为你根本不能真正享受它,就算看完整本也毫无用处。设想一下,如果自己一而再再而三地被迫去看一些自己觉得厌倦的书,又怎么会养成阅读的好习惯呢?想要养成良好的阅读习惯其实很简单,因为没有一种工作能像阅读这样,随时随地开始,也可以中途立刻放下。

是啊!阅读是一种享受,看自己喜欢的书,更是一种乐趣!无论是小说、漫画、 童话 故事 ……我想,只要是自己喜欢的书,都会看得津津有味。

在生活中的我也是如此。当妈妈让我看一些文学类的书时,我就愁眉苦脸,十分不情愿。因为我不理解书中的意思,有些太过于哲理性的 句子 反而会使人感到枯燥、厌烦。现在,我的书柜上已经放满了给种各样我喜欢的书:《小公主》教会我善良;《爱的 教育 》也让我变得富有爱心;《宠物集中营》更让我懂得了动物是我们人类的朋友,我们要与它们和睦相处......这些书并不是什么名家名篇,哲理类 文章 ,只是一些更加贴近我们生活一点;这些书没有很多的好词佳句,只是它们比那些文学类的书更加简而易懂些!遇到自己喜欢看的书,我就会一直沉浸在书的世界中:每当读到兴奋的地方,不禁会心一笑,深受同感;读到颇有幽默的地方,也会笑得合不拢嘴;读到令人伤心的地方时,有时候甚至会鼻子一酸,热泪盈眶......这些书提高了我的写作能力,教会我做人的许多道理,就像是我的伙伴:逗你笑,陪你哭!

尽情阅读吧!阅读自己喜欢的书,把阅读当做一种乐趣,随时随地去享受,阅读,会使你的生活更加充实、快乐!

关于阅读的高三议论文3

书籍是人类数百年来无数聪明才智的载体,它记录着人类记几十年的知识教训。随着社会发展,社会上形形色色的书卷也日益繁多。当我面对如排山倒海般袭来的“书山书海”,不禁会想,我们为什么读书。

高尔基说过“书籍是人类进步的阶梯。”人为生存,为了考学,拼命的读书,有人甚至说书籍是生计的敲门砖,有了事业即可不要书。对于这一观点,我不敢苟同,正如培根所说,“读史使人明智,读诗使人灵秀,数学使人周密,物理使人深刻,伦理使人庄重,逻辑使人善辩。”在我看来,读书的目的并不在于为考试,而在读书,若只为考试而读,那变是读死书。我认为,读书的真正目的应是以下四点:

第一,读书让人获得知识。这是最浅显的作用。

我们从小到大所读的教科书目的也大于此。它让获得丰富的知识,获得渊博的学识,也让人们得到学位和工作,这些无足轻重的“副产品”。这一层的读书只是为了生活和学识。不可否认,知识的获得也是十分重要,毕竟“熟读唐诗三百首,不会作诗也会诌”吗?

第二,读书让人提高修养。

阅读一本好书,正如同一位知识渊博的学者谈话,“他”的语言中无不闪烁智慧的火花,无不传答着高尚的修养,从一本书中学到的修养,提高的品格,远比在生活磨砺中体会的深刻,体会的彻底。正如林语堂所说的如果读者获得书中的“味”,他便会在谈吐中把这种风味表现出来,如果他的谈吐中有了风味,他在写作中免不了会表现出风味来。着此间浅移默化的“味”,不正是在读书中体味的素养吗?

第三,读书让人开阔视野。

人生活的范围有限,限制于空间与时间的连锁中,当他只能同身边的交谈,他的认识是肤浅的,他的学识是简陋的。但当他打开一本书,时间,空间便再不能限制于他,他可以坐在家中看到世界各地,品味古今中外,他可以体会古战场上“马作的卢飞快,弓如霹雳弦惊”的宏大,可以体会大草原上“风吹草地牛羊”的生机;可以体会黄昏下“枯藤老树昏鸦,小桥流水人家”的忧;可以体会“白日放歌需纵酒,青春作伴好还乡”的欢喜。在书中人可以翱翔于智慧的天空,他的视野也不会只存在于一省,一市,一县,一国而是整个宇宙整个空间。着也许读书所换来的乐趣吧。

第四,读书让人明白事理。

韩愈曾说“人非生而知之者,孰能无或?”我想的疑虑也莫过于不明事理吧,读书里的名人,也许刚好可以找到答案,看世界名人的作人处事,从中可以学到许多 方法 ,对于明白事理,应是非常重要的吧。

在书籍中品味知识的博大精神。在书籍中培养修养的文雅得体,在书籍中开拓视野看大千世界,在书籍中学做人处事的方法道理。这也许是读书的真正目的吧。

关于阅读的高三议论文4

稳中求胜

梁山智有吴用,道有公孙,武更是好汉如云。英雄如雨,却以宋江为首。蜀国谋赖孔明,勇让关张,却以刘备为王,东木西金,南水北火,却以戍土居中。何也?

宋公明为人沉稳,刘备做事敦厚,戍土谦稳厚实,终脱颖而出,施展风采,各得其所,故曰:为人沉稳,稳中求胜,吉。

沉稳从志而来。一个人若没有远大的志向,只沉迷于现实的花花世界之中,自然无法拥有沉稳的性格。班超投笔从戎,志在报国,在对匈奴一战中从容不迫,沉稳冷静,终弘扬国威,不教胡马度阴山。林则徐斩钉截铁,志在禁烟,在与洋人交涉中不卑不亢,稳中含刚,终虎门销烟,让洋人胆战心寒。有远大的志向,眼光便放得远,心胸便沉稳下来,故曰:非有志者不能稳也。

沉稳从难而来。一个人若没有经历无数的挫折与磨难,身陷蜜水与襁褓之中,自然无法拥有沉稳的性格,一遇困境,便心浮气躁,岂能成所谓大事者哉。君不见文王拘而演《周易》,仲尼厄而作《春秋》,左丘失明厥有《国语》,孙子膑脚《兵法》修列。没有经历磨难,便无法形成沉稳的性格,也就无法取得辉煌的成就。始皇建秦以来,不居安思危,身陷声色犬马,终心浮气躁,毫无沉稳。一夫作难而七庙隳,身死人手,为天下笑。倘若秦王不念纷奢,经历磨难,以求沉稳,则可递三世以至万世而为君。

沉稳从无欲而来。孟子曰:“无欲者,可王矣。”无欲就是没有私欲,作大事者,不能因蝇头私利而毁坏全局,只有这样才能练就出沉稳的性格,赢得最终的胜利。如来佛祖抛除私欲,性格沉稳,终修成正果,普渡众生,诸葛孔明淡泊明志,宁静致远,终运筹帷幄,功成名就。有了私欲,心中自然无法沉稳下来,遇事则慌,处事则乱。霸王以一己私欲,赶走亚父,气走韩信,终被困垓下,遗憾千古,长使英雄泪满襟。霸王之败,后人哀之。后人哀之而不鉴之,则必使后人而复哀后人矣。

宋公明以沉稳之心赢得了好汉的拥护,刘备以沉稳之心赢得了半壁江山,而自然界的大山以沉稳的性格也在四季中变化出不同的色彩。让我们拥有一颗和大山一样沉稳的心吧,在我们的人生中也变化出不同的色彩来。

关于阅读的高三议论文5

弗朗西斯·培根说过:“读书给人以乐趣,给人以光彩,给人以才干。”那么,阅读到底是为了什么呢?怎么样才能让自己爱上阅读呢?《为乐趣而读书》会告诉你答案。

《为乐趣而读书》主要内容:我们阅读不是为了自己取得学位,也不是为了以后的生活。阅读不仅仅只是一种乐趣,它还会使你的生活丰富多彩,但前提是你要学会享受书本。谁都没有义务要去读诗、小说或者是一些文学作品,它只能为自己的乐趣而读。如果当自己看了一本自己觉得不合胃口的书,那么请就此搁下,因为你根本不能真正享受它,就算看完整本也毫无用处。设想一下,如果自己一而再再而三地被迫去看一些自己觉得厌倦的书,又怎么会养成阅读的好习惯呢?想要养成良好的阅读习惯其实很简单,因为没有一种工作能像阅读这样,随时随地开始,也可以中途立刻放下。

是啊!阅读是一种享受,看自己喜欢的书,更是一种乐趣!无论是小说、漫画、童话故事……我想,只要是自己喜欢的书,都会看得津津有味。

在生活中的我也是如此。当妈妈让我看一些文学类的书时,我就愁眉苦脸,十分不情愿。因为我不理解书中的意思,有些太过于哲理性的句子反而会使人感到枯燥、厌烦。现在,我的书柜上已经放满了给种各样我喜欢的书:《小公主》教会我善良;《爱的教育》也让我变得富有爱心;《宠物集中营》更让我懂得了动物是我们人类的朋友,我们要与它们和睦相处......这些书并不是什么名家名篇,哲理类文章,只是一些更加贴近我们生活一点;这些书没有很多的好词佳句,只是它们比那些文学类的书更加简而易懂些!遇到自己喜欢看的书,我就会一直沉浸在书的世界中:每当读到兴奋的地方,不禁会心一笑,深受同感;读到颇有幽默的地方,也会笑得合不拢嘴;读到令人伤心的地方时,有时候甚至会鼻子一酸,热泪盈眶......这些书提高了我的写作能力,教会我做人的许多道理,就像是我的伙伴:逗你笑,陪你哭!

尽情阅读吧!阅读自己喜欢的书,把阅读当做一种乐趣,随时随地去享受,阅读,会使你的生活更加充实、快乐!

关于阅读的高三议论文1000字相关文章:

★ 关于读书的议论文1000字左右作文

★ 关于读书的议论文1000字精选文章

★ 高中议论文作文读书的乐趣1000字

★ 高考语文议论文1000字

高考满分作文议论文1000字

★ 高考议论文1000字范文

★ 关于读书的议论文1000字作文大全(2)

★ 高考满分作文1000字议论文

★ 高考议论文作文1000字范文

★ 1000字议论文大全

曾经有一句话,是这样说的:“什么样的孩子看什么样的书,就有什么样的未来。”书,是浩瀚的宇宙;书,是漫天的星辰;书,是苍茫的大海。书里的知识取之不尽,用之不竭。阅读,对一个人的影响是很大的。看什么样的书,可能就会有什么样的梦想。记得小时候,我想要成为一位美食家。小孩子总是特别馋,看到什么样的东西都想塞进嘴里。那时候,妈妈有很多关于美食的书籍。我喜欢看那些书,虽然看不懂文字,但看到那些栩栩如生的美食,我就萌生了要当美食家的念头。小学四年级左右吧,我想要成为一位老师。有一段时间,我在当老师的姑姑家住。姑姑是语文老师,自然也会有很多书。那时候,我已经会认很多字了,也很喜欢看书。姑姑房间里的书大部分都是如何成为一位好老师。我不知怎的,这类书也喜欢看。姑姑会经常和我聊当老师的趣事。教师节的时候,会经常有学生来看姑姑。姑姑说,虽然当老师很辛苦,但是能看到那么多学生茁壮成长,很值得。我很羡慕姑姑,因此想要成为一名老师。上了初中,我想要成为一位作家。我会去看很多小说,很多的故事。每次的语文书发下来,我总是会饶有兴趣地去看课文,去体会字里行间的感情。我开始喜欢上用文字来表达情绪。我喜欢写日记,把高兴的不高兴的都写下来,向自己发泄发泄。偶尔,我也会写写一个个小故事,想象自己就是主角。阅读时,我可以抛开生活,只活在想象里。这样,也可以给自己降压。阅读和梦想到底有什么关系?我想说,阅读成就梦想。我的梦想是成为作家,自然离不开阅读。每个星期,我都会读上一两本名着或者小说。阅读的时候,我仿佛就进入了书的世界,和主人公生活在一起,去经历他们的点点滴滴。这大概就是我喜欢阅读的原因吧。我的梦想和阅读离不开,阅读也和我的梦想离不开。阅读真的可以成就梦想。它让我们的梦想插上翅膀,让我们有更大的动力,成就我们心中最渴望的梦。

目标检测相关的最新论文

深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理。  目标检测可以理解为是物体识别和物体定位的综合 ,不仅仅要识别出物体属于哪个分类,更重要的是得到物体在图片中的具体位置。 2014年R-CNN算法被提出,基本奠定了two-stage方式在目标检测领域的应用。它的算法结构如下图 算法步骤如下: R-CNN较传统的目标检测算法获得了50%的性能提升,在使用VGG-16模型作为物体识别模型情况下,在voc2007数据集上可以取得66%的准确率,已经算还不错的一个成绩了。其最大的问题是速度很慢,内存占用量很大,主要原因有两个 针对R-CNN的部分问题,2015年微软提出了Fast R-CNN算法,它主要优化了两个问题。 R-CNN和fast R-CNN均存在一个问题,那就是 由选择性搜索来生成候选框,这个算法很慢 。而且R-CNN中生成的2000个左右的候选框全部需要经过一次卷积神经网络,也就是需要经过2000次左右的CNN网络,这个是十分耗时的(fast R-CNN已经做了改进,只需要对整图经过一次CNN网络)。这也是导致这两个算法检测速度较慢的最主要原因。 faster R-CNN 针对这个问题, 提出了RPN网络来进行候选框的获取,从而摆脱了选择性搜索算法,也只需要一次卷积层操作,从而大大提高了识别速度 。这个算法十分复杂,我们会详细分析。它的基本结构如下图 主要分为四个步骤: 使用VGG-16卷积模型的网络结构: 卷积层采用的VGG-16模型,先将PxQ的原始图片,缩放裁剪为MxN的图片,然后经过13个conv-relu层,其中会穿插4个max-pooling层。所有的卷积的kernel都是3x3的,padding为1,stride为1。pooling层kernel为2x2, padding为0,stride为2。 MxN的图片,经过卷积层后,变为了(M/16) x (N/16)的feature map了。 faster R-CNN抛弃了R-CNN中的选择性搜索(selective search)方法,使用RPN层来生成候选框,能极大的提升候选框的生成速度。RPN层先经过3x3的卷积运算,然后分为两路。一路用来判断候选框是前景还是背景,它先reshape成一维向量,然后softmax来判断是前景还是背景,然后reshape恢复为二维feature map。另一路用来确定候选框的位置,通过bounding box regression实现,后面再详细讲。两路计算结束后,挑选出前景候选框(因为物体在前景中),并利用计算得到的候选框位置,得到我们感兴趣的特征子图proposal。 卷积层提取原始图像信息,得到了256个feature map,经过RPN层的3x3卷积后,仍然为256个feature map。但是每个点融合了周围3x3的空间信息。对每个feature map上的一个点,生成k个anchor(k默认为9)。anchor分为前景和背景两类(我们先不去管它具体是飞机还是汽车,只用区分它是前景还是背景即可)。anchor有[x,y,w,h]四个坐标偏移量,x,y表示中心点坐标,w和h表示宽度和高度。这样,对于feature map上的每个点,就得到了k个大小形状各不相同的选区region。 对于生成的anchors,我们首先要判断它是前景还是背景。由于感兴趣的物体位于前景中,故经过这一步之后,我们就可以舍弃背景anchors了。大部分的anchors都是属于背景,故这一步可以筛选掉很多无用的anchor,从而减少全连接层的计算量。 对于经过了3x3的卷积后得到的256个feature map,先经过1x1的卷积,变换为18个feature map。然后reshape为一维向量,经过softmax判断是前景还是背景。此处reshape的唯一作用就是让数据可以进行softmax计算。然后输出识别得到的前景anchors。 另一路用来确定候选框的位置,也就是anchors的[x,y,w,h]坐标值。如下图所示,红色代表我们当前的选区,绿色代表真实的选区。虽然我们当前的选取能够大概框选出飞机,但离绿色的真实位置和形状还是有很大差别,故需要对生成的anchors进行调整。这个过程我们称为bounding box regression。 假设红色框的坐标为[x,y,w,h], 绿色框,也就是目标框的坐标为[Gx, Gy,Gw,Gh], 我们要建立一个变换,使得[x,y,w,h]能够变为[Gx, Gy,Gw,Gh]。最简单的思路是,先做平移,使得中心点接近,然后进行缩放,使得w和h接近。如下:我们要学习的就是dx dy dw dh这四个变换。由于是线性变换,我们可以用线性回归来建模。设定loss和优化方法后,就可以利用深度学习进行训练,并得到模型了。对于空间位置loss,我们一般采用均方差算法,而不是交叉熵(交叉熵使用在分类预测中)。优化方法可以采用自适应梯度下降算法Adam。 得到了前景anchors,并确定了他们的位置和形状后,我们就可以输出前景的特征子图proposal了。步骤如下: 1,得到前景anchors和他们的[x y w h]坐标。 2,按照anchors为前景的不同概率,从大到小排序,选取前pre_nms_topN个anchors,比如前6000个 3,剔除非常小的anchors。 4,通过NMS非极大值抑制,从anchors中找出置信度较高的。这个主要是为了解决选取交叠问题。首先计算每一个选区面积,然后根据他们在softmax中的score(也就是是否为前景的概率)进行排序,将score最大的选区放入队列中。接下来,计算其余选区与当前最大score选区的IOU(IOU为两box交集面积除以两box并集面积,它衡量了两个box之间重叠程度)。去除IOU大于设定阈值的选区。这样就解决了选区重叠问题。 5,选取前post_nms_topN个结果作为最终选区proposal进行输出,比如300个。 经过这一步之后,物体定位应该就基本结束了,剩下的就是物体识别了。 和fast R-CNN中类似,这一层主要解决之前得到的proposal大小形状各不相同,导致没法做全连接。全连接计算只能对确定的shape进行运算,故必须使proposal大小形状变为相同。通过裁剪和缩放的手段,可以解决这个问题,但会带来信息丢失和图片形变问题。我们使用ROI pooling可以有效的解决这个问题。 ROI pooling中,如果目标输出为MxN,则在水平和竖直方向上,将输入proposal划分为MxN份,每一份取最大值,从而得到MxN的输出特征图。 ROI Pooling层后的特征图,通过全连接层与softmax,就可以计算属于哪个具体类别,比如人,狗,飞机,并可以得到cls_prob概率向量。同时再次利用bounding box regression精细调整proposal位置,得到bbox_pred,用于回归更加精确的目标检测框。 这样就完成了faster R-CNN的整个过程了。算法还是相当复杂的,对于每个细节需要反复理解。faster R-CNN使用resNet101模型作为卷积层,在voc2012数据集上可以达到的准确率,超过yolo ssd和yoloV2。其最大的问题是速度偏慢,每秒只能处理5帧,达不到实时性要求。 针对于two-stage目标检测算法普遍存在的运算速度慢的缺点, yolo创造性的提出了one-stage。也就是将物体分类和物体定位在一个步骤中完成。 yolo直接在输出层回归bounding box的位置和bounding box所属类别,从而实现one-stage。通过这种方式, yolo可实现45帧每秒的运算速度,完全能满足实时性要求 (达到24帧每秒,人眼就认为是连续的)。它的网络结构如下图: 主要分为三个部分:卷积层,目标检测层,NMS筛选层。 采用Google inceptionV1网络,对应到上图中的第一个阶段,共20层。这一层主要是进行特征提取,从而提高模型泛化能力。但作者对inceptionV1进行了改造,他没有使用inception module结构,而是用一个1x1的卷积,并联一个3x3的卷积来替代。(可以认为只使用了inception module中的一个分支,应该是为了简化网络结构) 先经过4个卷积层和2个全连接层,最后生成7x7x30的输出。先经过4个卷积层的目的是为了提高模型泛化能力。yolo将一副448x448的原图分割成了7x7个网格,每个网格要预测两个bounding box的坐标(x,y,w,h)和box内包含物体的置信度confidence,以及物体属于20类别中每一类的概率(yolo的训练数据为voc2012,它是一个20分类的数据集)。所以一个网格对应的参数为(4x2+2+20) = 30。如下图 其中前一项表示有无人工标记的物体落入了网格内,如果有则为1,否则为0。第二项代表bounding box和真实标记的box之间的重合度。它等于两个box面积交集,除以面积并集。值越大则box越接近真实位置。 分类信息: yolo的目标训练集为voc2012,它是一个20分类的目标检测数据集 。常用目标检测数据集如下表: | Name | # Images (trainval) | # Classes | Last updated | | --------------- | ------------------- | --------- | ------------ | | ImageNet | 450k | 200 | 2015 | | COCO | 120K | 90 | 2014 | | Pascal VOC | 12k | 20 | 2012 | | Oxford-IIIT Pet | 7K | 37 | 2012 | | KITTI Vision | 7K | 3 | | 每个网格还需要预测它属于20分类中每一个类别的概率。分类信息是针对每个网格的,而不是bounding box。故只需要20个,而不是40个。而confidence则是针对bounding box的,它只表示box内是否有物体,而不需要预测物体是20分类中的哪一个,故只需要2个参数。虽然分类信息和confidence都是概率,但表达含义完全不同。 筛选层是为了在多个结果中(多个bounding box)筛选出最合适的几个,这个方法和faster R-CNN 中基本相同。都是先过滤掉score低于阈值的box,对剩下的box进行NMS非极大值抑制,去除掉重叠度比较高的box(NMS具体算法可以回顾上面faster R-CNN小节)。这样就得到了最终的最合适的几个box和他们的类别。 yolo的损失函数包含三部分,位置误差,confidence误差,分类误差。具体公式如下: 误差均采用了均方差算法,其实我认为,位置误差应该采用均方差算法,而分类误差应该采用交叉熵。由于物体位置只有4个参数,而类别有20个参数,他们的累加和不同。如果赋予相同的权重,显然不合理。故yolo中位置误差权重为5,类别误差权重为1。由于我们不是特别关心不包含物体的bounding box,故赋予不包含物体的box的置信度confidence误差的权重为,包含物体的权重则为1。 Faster R-CNN准确率mAP较高,漏检率recall较低,但速度较慢。而yolo则相反,速度快,但准确率和漏检率不尽人意。SSD综合了他们的优缺点,对输入300x300的图像,在voc2007数据集上test,能够达到58 帧每秒( Titan X 的 GPU ),的mAP。 SSD网络结构如下图: 和yolo一样,也分为三部分:卷积层,目标检测层和NMS筛选层 SSD论文采用了VGG16的基础网络,其实这也是几乎所有目标检测神经网络的惯用方法。先用一个CNN网络来提取特征,然后再进行后续的目标定位和目标分类识别。 这一层由5个卷积层和一个平均池化层组成。去掉了最后的全连接层。SSD认为目标检测中的物体,只与周围信息相关,它的感受野不是全局的,故没必要也不应该做全连接。SSD的特点如下。 每一个卷积层,都会输出不同大小感受野的feature map。在这些不同尺度的feature map上,进行目标位置和类别的训练和预测,从而达到 多尺度检测 的目的,可以克服yolo对于宽高比不常见的物体,识别准确率较低的问题。而yolo中,只在最后一个卷积层上做目标位置和类别的训练和预测。这是SSD相对于yolo能提高准确率的一个关键所在。 如上所示,在每个卷积层上都会进行目标检测和分类,最后由NMS进行筛选,输出最终的结果。多尺度feature map上做目标检测,就相当于多了很多宽高比例的bounding box,可以大大提高泛化能力。 和faster R-CNN相似,SSD也提出了anchor的概念。卷积输出的feature map,每个点对应为原图的一个区域的中心点。以这个点为中心,构造出6个宽高比例不同,大小不同的anchor(SSD中称为default box)。每个anchor对应4个位置参数(x,y,w,h)和21个类别概率(voc训练集为20分类问题,在加上anchor是否为背景,共21分类)。如下图所示: 另外,在训练阶段,SSD将正负样本比例定位1:3。训练集给定了输入图像以及每个物体的真实区域(ground true box),将default box和真实box最接近的选为正样本。然后在剩下的default box中选择任意一个与真实box IOU大于的,作为正样本。而其他的则作为负样本。由于绝大部分的box为负样本,会导致正负失衡,故根据每个box类别概率排序,使正负比例保持在1:3。SSD认为这个策略提高了4%的准确率 另外,SSD采用了数据增强。生成与目标物体真实box间IOU为 的patch,随机选取这些patch参与训练,并对他们进行随机水平翻转等操作。SSD认为这个策略提高了的准确率。 和yolo的筛选层基本一致,同样先过滤掉类别概率低于阈值的default box,再采用NMS非极大值抑制,筛掉重叠度较高的。只不过SSD综合了各个不同feature map上的目标检测输出的default box。 SSD基本已经可以满足我们手机端上实时物体检测需求了,TensorFlow在Android上的目标检测官方模型,就是通过SSD算法实现的。它的基础卷积网络采用的是mobileNet,适合在终端上部署和运行。 针对yolo准确率不高,容易漏检,对长宽比不常见物体效果差等问题,结合SSD的特点,提出了yoloV2。它主要还是采用了yolo的网络结构,在其基础上做了一些优化和改进,如下 网络采用DarkNet-19:19层,里面包含了大量3x3卷积,同时借鉴inceptionV1,加入1x1卷积核全局平均池化层。结构如下 yolo和yoloV2只能识别20类物体,为了优化这个问题,提出了yolo9000,可以识别9000类物体。它在yoloV2基础上,进行了imageNet和coco的联合训练。这种方式充分利用imageNet可以识别1000类物体和coco可以进行目标位置检测的优点。当使用imageNet训练时,只更新物体分类相关的参数。而使用coco时,则更新全部所有参数。 YOLOv3可以说出来直接吊打一切图像检测算法。比同期的DSSD(反卷积SSD), FPN(feature pyramid networks)准确率更高或相仿,速度是其1/3.。 YOLOv3的改动主要有如下几点:不过如果要求更精准的预测边框,采用COCO AP做评估标准的话,YOLO3在精确率上的表现就弱了一些。如下图所示。 当前目标检测模型算法也是层出不穷。在two-stage领域, 2017年Facebook提出了mask R-CNN 。CMU也提出了A-Fast-RCNN 算法,将对抗学习引入到目标检测领域。Face++也提出了Light-Head R-CNN,主要探讨了 R-CNN 如何在物体检测中平衡精确度和速度。 one-stage领域也是百花齐放,2017年首尔大学提出 R-SSD 算法,主要解决小尺寸物体检测效果差的问题。清华大学提出了 RON 算法,结合 two stage 名的方法和 one stage 方法的优势,更加关注多尺度对象定位和负空间样本挖掘问题。 目标检测领域的深度学习算法,需要进行目标定位和物体识别,算法相对来说还是很复杂的。当前各种新算法也是层不出穷,但模型之间有很强的延续性,大部分模型算法都是借鉴了前人的思想,站在巨人的肩膀上。我们需要知道经典模型的特点,这些tricks是为了解决什么问题,以及为什么解决了这些问题。这样才能举一反三,万变不离其宗。综合下来,目标检测领域主要的难点如下: 一文读懂目标检测AI算法:R-CNN,faster R-CNN,yolo,SSD,yoloV2 从YOLOv1到v3的进化之路 SSD-Tensorflow超详细解析【一】:加载模型对图片进行测试  YOLO              C#项目参考: 项目实践贴个图。

论文: EfficientDet: Scalable and Efficient Object Detection

目前目标检测领域,高精度的模型通常需要很大的参数量和计算量,而轻量级的网络则一般都会牺牲精度。因此,论文希望建立一个可伸缩的高精度且高性能的检测框架。论文基于one-stage的检测网络范式,进行了多种主干网络、特征融合和class/box预测的结构尝试,主要面临两个挑战:

FPN是目前最广泛的多尺度融合方法,最近也有PANet和NAS-FPN一类跨尺度特征融合方法。对于融合不同的特征,最初的方法都只是简单地直接相加,然而由于不同的特征是不同的分辨率,对融合输出特征的共享应该是不相等的。为了解决这一问题,论文提出简单但高效加权的bi-directional feature pyramid network(BiFPN),该方法使用可学习的权重来学习不同特征的重要性,同时反复地进行top-down和bottom-up的多尺度融合

论文认为除了缩放主干网络和输入图片的分辨率,特征网络(feature network)和box/class预测网络的缩放对准确率和性能也是很重要的。作者借鉴EfficientNet,提出针对检测网络的混合缩放方法(compound scaling method),同时对主干网络,特征网络和box/class预测网络的分辨率/深度/宽度进行缩放

最后,论文将EfficientNet作为主干,结合BiFPN和混合缩放,提出新的检测系列EfficientDet,精度高且轻量,COCO上的结果如图1,论文的贡献有以下3点:

定义多尺寸特征 ,论文的目标是找到变化函数 来高效融合不同的特征,输出新特征 。具体地,图2a展示了top-down FPN网络结构,一般FPN只有一层,这里应该为了对比写了repeat形式。FPN获取3-7层的输入 , 代表一个分辨率为 的特征层

top-down FPN操作如上所示, 为上采用或下采样来对齐分辨率, 通常是特征处理的卷积操作

top-down FPN受限于单向的信息流,为了解决这一问题,PANet(图2b)增加了额外的bottom-up路径的融合网络,NAS_FPN(图2c)使用神经架构搜索来获取更好的跨尺度特征网络的拓扑结构,但需要大量资源进行搜索。其中准确率最高的是PANet,但是其需要太多的参数和计算量,为了提高性能,论文对跨尺寸连接做了几点改进:

大多的特征融合方法都将输入特征平等对待,而论文观察到不同分辨率的输入对融合输出的特征的贡献应该是不同的。为了解决这一问题,论文提出在融合时对输入特征添加额外的权重预测,主要有以下方法:

, 是可学习的权重,可以是标量(per-feature),也可以是向量(per-channel),或者是多维tensor(per-pixel)。论文发现标量形式已经足够提高准确率,且不增加计算量,但是由于标量是无限制的,容易造成训练不稳定,因此,要对其进行归一化限制

,利用softmax来归一化所有的权重,但softmax操作会导致GPU性能的下降,后面会详细说明

,Relu保证 , 保证数值稳定。这样,归一化的权重也落在 ,由于没有softmax操作,效率更高,大约加速30%

BiFPN集合了双向跨尺寸的连接和快速归一化融合,level 6的融合操作如上, 为top-down路径的中间特征, 是bottom-up路径的输出特征,其它层的特征也是类似的构造方法。为了进一步提高效率,论文特征融合时采用depthwise spearable convolution,并在每个卷积后面添加batch normalization和activation

EfficientDet的结构如图3所示,基于one-stage检测器的范式,将ImageNet-pretrained的EfficientNet作为主干,BiFPN将主干的3-7层特征作为输入,然后重复进行top-down和bottom-up的双向特征融合,所有层共享class和box网络

之前检测算法的缩放都是针对单一维度的,从EfficientNet得到启发,论文提出检测网络的新混合缩放方法,该方法使用混合因子 来同时缩放主干网络的宽度和深度、BiFPN网络、class/box网络和分辨率。由于缩放的维度过多,EfficientNet使用的网格搜索效率太慢,论文改用heuristic-based的缩放方法来同时缩放网络的所有维度

EfficientDet重复使用EfficientNet的宽度和深度因子,EfficinetNet-B0至EfficientNet-B6

论文以指数形式来缩放BiFPN宽度 (#channels),而以线性形式增加深度 (#layers),因为深度需要限制在较小的数字

box/class预测网络的宽度固定与BiFPN的宽度一致,而用公式2线性增加深度(#layers)

因为BiFPN使用3-7层的特征,因此输入图片的分辨率必需能被 整除,所以使用公式3线性增加分辨率

结合公式1-3和不同的 ,论文提出EfficientDet-D0到EfficientDet-D6,具体参数如Table 1,EfficientDet-D7没有使用 ,而是在D6的基础上增大输入分辨率

模型训练使用momentum=和weight decay=4e-5的SGD优化器,在初始的5%warm up阶段,学习率线性从0增加到,之后使用余弦衰减规律(cosine decay rule)下降,每个卷积后面都添加Batch normalization,batch norm decay=,epsilon=1e-4,梯度使用指数滑动平均,decay=,采用 和 的focal loss,bbox的长宽比为 ,32块GPU,batch size=128,D0-D4采用RetinaNet的预处理方法,D5-D7采用NAS-FPN的增强方法

Table 2展示了EfficientDet与其它算法的对比结果,EfficientDet准确率更高且性能更好。在低准确率区域,Efficient-D0跟YOLOv3的相同准确率但是只用了1/28的计算量。而与RetianaNet和Mask-RCNN对比,相同的准确率只使用了1/8参数和1/25的计算量。在高准确率区域,EfficientDet-D7达到了,比NAS-FPN少使用4x参数量和计算量,而anchor也仅使用3x3,非9x9

论文在实际的机器上对模型的推理速度进行了对比,结果如图4所示,EfficientDet在GPU和CPU上分别有和加速

论文对主干网络和BiFPN的具体贡献进行了实验对比,结果表明主干网络和BiFPN都是很重要的。这里要注意的是,第一个模型应该是RetinaNet-R50(640),第二和第三个模型应该是896输入,所以准确率的提升有一部分是这个原因。另外使用BiFPN后模型精简了很多,主要得益于channel的降低,FPN的channel都是256和512的,而BiFPN只使用160维,这里应该没有repeat

Table 4展示了Figure 2中同一网络使用不同跨尺寸连接的准确率和复杂度,BiFPN在准确率和复杂度上都是相当不错的

Table 5展示了不同model size下两种加权方法的对比,在精度损失不大的情况下,论文提出的fast normalized fusion能提升26%-31%的速度

figure 5展示了两种方法在训练时的权重变化过程,fast normalizaed fusion的变化过程与softmax方法十分相似。另外,可以看到权重的变化十分快速,这证明不同的特征的确贡献是不同的,

论文对比了混合缩放方法与其它方法,尽管开始的时候相差不多,但是随着模型的增大,混合精度的作用越来越明显

论文提出BiFPN这一轻量级的跨尺寸FPN以及定制的检测版混合缩放方法,基于这些优化,推出了EfficientDet系列算法,既保持高精度也保持了高性能,EfficientDet-D7达到了SOTA。整体而言,论文的idea基于之前的EfficientNet,创新点可能没有之前那么惊艳,但是从实验来看,论文推出的新检测框架十分实用,期待作者的开源

论文:A Dual Weighting Label Assignment Scheme for Object Detection

[图片上传失败...(image-26dcc3-25)]

Anchor作为目标检测器训练的基础单元,需要被赋予正确的分类标签和回归标签,这样的标签指定(LA, label assignment)过程也可认为是损失权重指定过程。对于单个anchor的cls损失计算,可以统一地表示为:

[图片上传失败...(image-2e24aa-25)]

和 为正向权重和反向权重,用于控制训练的方向。基于这个设计,可以将LA方法分为两个大类:

[图片上传失败...(image-372b16-25)]

为了给检测器提供更多的监督信息,论文提出了新的LA方法DW(dual weighting),从不同的角度单独计算 和 并让其能够互补。此外,为了给权重计算函数提供更准确的reg分数,论文还提出了新的bbox精调操作,预测目标的边界位置并根据对应的特征产生更准确的精调信息。

由于NMS的存在,检测器应该预测一致的bbox,既有高分类分数也有准确的位置定位。但如果在训练时平等地对待所有的训练样本,而cls分数越高的预测结果的reg位置不一定越准确,这往往会导致cls head与reg head之间就会存在不一致性。为此,Soft LA通过加权损失来更柔和地对待训练样本,加强cls head与reg head的一致性。基于Soft LA,anchor的损失可以表示为:

[图片上传失败...(image-51f384-25)]

其中 为预测的cls分数。为一致性更高的预测结果分配更大的 和 ,能够使得网络专注于学习高质量的预测结果,减轻cls head与reg head的不一致问题。

[图片上传失败...(image-98093b-25)]

当前的方法直接将 设置为 ,主要关注如何定义一致性以及如何将其集成到损失权重中。表1总结了一些方法对 和 的计算公式,这些方法先定义用于度量一致性的指标 ,随后将 作为不一致性的度量指标,最后添加缩放因子将指标集成到损失权重中。  上述方法的 和 都是高度相关的,而论文认为pos和neg权重应该以prediction-aware的方式单独设置,具体如下:

通过上述定义, 对于pos权重相似的这种模棱两可的anchor,就可以根据不同的neg权重得到更细粒度的监督信息 。

[图片上传失败...(image-535eff-25)]

DW方法的整体流程如图2所示,先根据中心点距离来为每个GT构造候选正样本集,其余的anchor为候选负样本。由于负样本的统计信息十分混乱,所以不参与权重函数的计算。候选正样本会被赋予三个权重 、 以及 ,用于更有效地监督训练。

pos权重需要反映预测结果对检测性能的重要性,论文从目标检测的验证指标来分析影响重要性的因素。在测试时,通常会根据cls分数或cls分数与IoU的结合对单分类的预测结果进行排序,从前往后依次判断。正确的预测需满足以下两点:

上述条件可认为是选择高ranking分数以及高IoU的预测结果,也意味着满足这两个条件的预测结果有更大概率在测试阶段被选择。从这个角度来看,pos权重 就应该与IoU和ranking分数正相关。首先定义一致性指标 ,用于度量两个条件的对齐程度:

[图片上传失败...(image-aac9d-25)]

为了让不同anchor的pos权重的方差更大,添加指数调节因子:

[图片上传失败...(image-3a2156-25)]

最终,各anchor的pos权重会根据对应GT的候选anchor的pos权重之和进行归一化。

pos权重虽然可以使得一致的anchor同时具有高cls分数和高IoU,但无法区分不一致anchor的重要程度。如前面图1所示,anchor D定位校准但分类分数较低,而anchor B恰好相反。两者的一致性程度 一致,pos权重无法区分差异。为了给检测器提供更多的监督信息,准确地体现anchor的重要程度,论文提出为两者赋予更清晰的neg权重,具体由以下两部分构成。

根据COCO的验证指标,IoU不满足阈值的预测结果一律归为错误的检测。所以,IoU是决定achor为负样本的概率的唯一因素,记为 。由于COCO使用的IoU阈值来计算AO,所以 应该满足以下规则:

[图片上传失败...(image-639b1e-25)]

任意 上单调递减的函数都可以作为 中间部分。为了简便,论文采用了以下函数:

[图片上传失败...(image-fa54fb-25)]

公式6需要穿过点 和 ,一旦 确定了,参数 和 可通过待定系数法确定。

[图片上传失败...(image-83052a-25)]

图3展示了不同 下的 曲线。

在推理时,ranking队列中靠前的neg预测结果虽然不会影响召回率,但会降低准确率。为了得到更高的性能,应该尽可能地降低neg预测结果的ranking分数。所以在训练中,ranking分数较高的neg预测结果应该比ranking分数较低的预测结果更为重要。基于此,定义neg预测结果的重要程度 为ranking分数的函数:

[图片上传失败...(image-1f95aa-25)]

最终,整体的neg权重 变为:

[图片上传失败...(image-851912-25)]

与 负相关,与 正相关。对于pos权重相同的anchor,IoU更小的会有更大的neg权重。在兼容验证指标的同时, 能给予检测器更多的监督信息。

pos权重和neg权重都以IoU作为输入,更准确的IoU可以保证更高质量的训练样本,有助于学习更强的特征。为此,论文提出了新的box精调操作,基于预测的四条边的偏移值 进行下一步的精调。

[图片上传失败...(image-98246a-25)]

考虑到目标边界上的点有更大的概率预测准确的位置,论文设计了可学习的预测模块,基于初步的bbox为每条边生成边界点。如图4所示,四个边界点的坐标定义为:

[图片上传失败...(image-a8361b-25)]

其中, 为精调模块的输出。最后,结合边界点的预测和精调模块的输出,最终精调后的anchor偏移 为:

[图片上传失败...(image-935c8b-25)]

DW策略可直接应用到大多数的dense检测器中。论文将DW应用到FCOS中并进行了少量修改,将centerness分支和分类分支合并成cls分数,网络的损失为:

[图片上传失败...(image-5d0fc-25)]

[图片上传失败...(image-1a38af-25)]

这里的 跟公式3是同一个, 和 分别为候选anchor数和非候选anchor数。

[图片上传失败...(image-20568e-25)]

平衡超参数对性能的影响。

[图片上传失败...(image-14e2fa-25)]

候选anchor选择方法对性能的影响。第一种为中心点的距离阈值,第二种选择最近的几个,第三种为距离权重与pos权重乘积排序。

[图片上传失败...(image-74467a-25)]

neg权重计算方式对比。

[图片上传失败...(image-8baa09-25)]

LA研究之间的对比。

[图片上传失败...(image-9d2740-25)]

与SOTA检测算法对比。

论文提出自适应的label assignment方法DW,打破了以往耦合加权的惯例。根据不同角度的一致性和非一致性指标,动态地为anchor分配独立的pos权重和neg权重,可以更全面地监督训练。此外,论文还提出了新的预测框精调操作,在回归特征图上直接精调预测框。

  • 索引序列
  • 目标检测系相关论文阅读
  • 目标检测系列论文阅读
  • 2d目标检测相关论文
  • 关于阅读相关论文题目
  • 目标检测相关的最新论文
  • 返回顶部