超像素分割论文题目

2个回答默认排序

默认排序

按时间排序

小希很爱小希

已采纳

Abstract

我们训练了一个大型的深度卷积神经网络，将ImageNet lsvprc -2010竞赛中的120万幅高分辨率图像分类为1000个不同的类。在测试数据上，我们实现了top-1和top-5的错误率，分别为37.5%和17.0%，这与前的最高水平相比有了很大的提高。该神经网络有6000万个参数和65万个神经元，由5个卷积层(其中一些后面接了最大池化层)和3个全连接层(最后的1000路softmax)组成。为了使训练更快，我们使用了非饱和神经元和一个非常高效的GPU实现卷积运算。为了减少全连通层的过拟合，我们采用了一种最近发展起来的正则化方法——dropout，结果显示它非常有效。我们还在ILSVRC-2012比赛中输入了该模型的一个变体，并获得了15.3%的top-5测试错误率，而第二名获得了26.2%的错误率.

1 Introduction

当前的物体识别方法主要利用机器学习方法。为了提高它们的性能，我们可以收集更大的数据集，学习更强大的模型，并使用更好的技术来防止过度拟合。直到最近，标记图像的数据集在成千上万的图像(例如，NORB [16]， Caltech-101/256 [8,9]， CIFAR-10/100[12])中相对较小。使用这种大小的数据集可以很好地解决简单的识别任务，特别是如果使用保存标签的转换来扩展它们。例如，MNIST数字识别任务的当前最佳错误率(<0.3%)接近人类性能[4]。但是现实环境中的物体表现出相当大的可变性，所以为了学会识别它们，有必要使用更大的训练集。的确，小图像数据集的缺点已经被广泛认识(例如，Pinto等人的[21])，但直到最近才有可能收集数百万张图像的标记数据集。新的更大的数据集包括LabelMe[23]，它由成千上万的全分段图像组成，和ImageNet[6]，它由超过22000个类别的超过1500万标记的高分辨率图像组成。

要从数百万张图像中了解数千个物体，我们需要一个具有巨大学习能力的模型。然而，对象识别任务的巨大复杂性意味着即使像ImageNet这样大的数据集也无法指定这个问题，因此我们的模型也应该具有大量的先验知识来补偿我们没有的所有数据。卷积神经网络(Convolutional neural networks, CNNs)就是这样一类模型[16,11,13,18,15,22,26]。它们的能力可以通过改变深度和宽度来控制，而且它们还对图像的性质(即统计的平稳性和像素依赖的局部性)做出了强有力且最正确的假设。因此，与具有相似大小层的标准前馈神经网络相比，CNNs具有更少的连接和参数，因此更容易训练，而其理论上最好的性能可能只会稍微差一些。

尽管CNNs的质量很吸引人，尽管它们的本地架构相对高效，但在高分辨率图像上大规模应用仍然非常昂贵。幸运的是，当前的gpu与高度优化的2D卷积实现相结合，已经足够强大，可以方便地训练有趣的大型CNNs，而最近的数据集(如ImageNet)包含了足够多的标记示例，可以在不严重过拟合的情况下训练此类模型。

本文的具体贡献如下：

最后，网络的大小主要受到当前gpu上可用内存的大小和我们愿意忍受的训练时间的大小的限制。我们的网络需要5到6天的时间来训练两个GTX 580 3GB GPU。我们所有的实验都表明，只要等待更快的gpu和更大的数据集可用，我们的结果就可以得到改善。

2 The Dataset

ImageNet是一个包含超过1500万张高分辨率图像的数据集，属于大约22000个类别。这些图片是从网上收集来的，并由人工贴标签者使用亚马逊的土耳其机械众包工具进行标记。从2010年开始，作为Pascal视觉对象挑战赛的一部分，每年都会举办一场名为ImageNet大型视觉识别挑战赛(ILSVRC)的比赛。ILSVRC使用ImageNet的一个子集，每个类别大约有1000张图片。总共大约有120万张训练图像、5万张验证图像和15万张测试图像。

ILSVRC-2010 是唯一可用测试集标签的 ILSVRC 版本，因此这是我们进行大多数实验的版本。由于我们也在 ILSVRC-2012 竞赛中加入了我们的模型，在第6节中，我们也报告了我们在这个版本的数据集上的结果，对于这个版本的数据集，测试集标签是不可用的。在 ImageNet 上，通常报告两个错误率：top-1 和 top-5，其中 top-5 错误率是测试图像的一部分，其中正确的标签不在模型认为最可能的五个标签中。

ImageNet由可变分辨率的图像组成，而我们的系统需要一个恒定的输入维数。因此，我们将图像降采样到256 * 256的固定分辨率。给定一个矩形图像，我们首先重新调整图像的大小，使其短边长度为256，然后从结果图像中裁剪出中心的256%256块。除了从每个像素中减去训练集上的平均活动外，我们没有以任何其他方式对图像进行预处理。因此，我们将网络训练成像素的原始RGB值(居中)。

3 The Architecture

3.1 ReLU Nonlinearity

3.2 Training on Multiple GPUs

3.3 Local Response Normalization

3.4 Overlapping Pooling

Pooling layers in CNNs summarize the outputs of neighboring groups of neurons in the same kernel map. Traditionally, the neighborhoods summarized by adjacent pooling units do not overlap (e.g.,[17, 11, 4]). To be more precise, a pooling layer can be thought of as consisting of a grid of pooling units spaced s pixels apart, each summarizing a neighborhood of size z z centered at the location of the pooling unit. If we set s = z, we obtain traditional local pooling as commonly employed in CNNs. If we set s < z, we obtain overlapping pooling. This is what we use throughout our network, with s = 2 and z = 3. This scheme reduces the top-1 and top-5 error rates by 0.4% and 0.3%, respectively, as compared with the non-overlapping scheme s = 2; z = 2, which produces output of equivalent dimensions. We generally observe during training that models with overlapping pooling find it slightly more difficult to overfit.

3.5 Overall Architecture

Now we are ready to describe the overall architecture of our CNN. As depicted in Figure 2, the net contains eight layers with weights; the first five are convolutional and the remaining three are fully-connected. The output of the last fully-connected layer is fed to a 1000-way softmax which produces a distribution over the 1000 class labels. Our network maximizes the multinomial logistic regression objective, which is equivalent to maximizing the average across training cases of the log-probability of the correct label under the prediction distribution.

4 Reducing Overfitting

4.1 Data Augmentation

4.2 Dropout

结合许多不同模型的预测是减少测试错误的一种非常成功的方法[1,3]，但是对于已经需要几天训练的大型神经网络来说，这似乎太昂贵了。然而，有一个非常有效的模型组合版本，它在训练期间只花费大约2倍的成本。最近介绍的技术称为dropout[10]，它将每个隐藏神经元的输出设置为0，概率为0.5。以这种方式丢弃的神经元不参与正向传递，也不参与反向传播。所以每次输入时，神经网络都会对不同的结构进行采样，但是所有这些结构都共享权重。这种技术减少了神经元之间复杂的相互适应，因为神经元不能依赖于特定的其他神经元的存在。因此，它被迫学习与其他神经元的许多不同随机子集结合使用的更健壮的特征。在测试时，我们使用所有的神经元，但将它们的输出乘以0.5，这是一个合理的近似值，近似于取由指数型多退出网络产生的预测分布的几何平均值。

我们在图2的前两个完全连接的层中使用了dropout。没有dropout，我们的网络显示出大量的过拟合。Dropout使收敛所需的迭代次数增加了一倍。

5 Details of learning

7 Discussion

88 评论 1小时前发布

0.0哆啦A梦0.0

超像素概念是2003年Xiaofeng Ren提出和发展起来的图像分割技术，是指具有相似纹理、颜色、亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块。它利用像素之间特征的相似性将像素分组,用少量的超像素代替大量的像素来表达图片特征,很大程度上降低了图像后处理的复杂度，所以通常作为分割算法的预处理步骤。已经广泛用于图像分割、姿势估计、目标跟踪、目标识别等计算机视觉应用。几种常见的超像素分割方法及其效果对比如下： Graph-based NCut Turbopixel Quick-shift Graph-cut a Graph-cut b SLIC 这里主要介绍的是SLIC（simple linear iterativeclustering），即简单的线性迭代聚类。它是2010年提出的一种思想简单、实现方便的算法，将彩色图像转化为CIELAB颜色空间和XY坐标下的5维特征向量，然后对5维特征向量构造距离度量标准，对图像像素进行局部聚类的过程。SLIC算法能生成紧凑、近似均匀的超像素，在运算速度，物体轮廓保持、超像素形状方面具有较高的综合评价，比较符合人们期望的分割效果。 SLIC主要优点总结如下：1）生成的超像素如同细胞一般紧凑整齐，邻域特征比较容易表达。这样基于像素的方法可以比较容易的改造为基于超像素的方法。2）不仅可以分割彩色图，也可以兼容分割灰度图。3）需要设置的参数非常少，默认情况下只需要设置一个预分割的超像素的数量。4）相比其他的超像素分割方法，SLIC在运行速度、生成超像素的紧凑度、轮廓保持方面都比较理想。在介绍SLIC之前，插播一下Lab颜色空间的介绍。Lab色彩模型是由亮度（L）和有关色彩的a, b三个要素组成。L表示亮度（Luminosity），L的值域由0（黑色）到100（白色）。a表示从洋红色至绿色的范围（a为负值指示绿色而正值指示品红），b表示从黄色至蓝色的范围（b为负值指示蓝色而正值指示黄色）。Lab颜色空间的优点：1）不像RGB和CMYK色彩空间，Lab 颜色被设计来接近人类生理视觉。它致力于感知均匀性，它的 L 分量密切匹配人类亮度感知。因此可以被用来通过修改 a 和 b 分量的输出色阶来做精确的颜色平衡，或使用 L 分量来调整亮度对比。这些变换在 RGB 或 CMYK 中是困难或不可能的。2）因为 Lab 描述的是颜色的显示方式，而不是设备（如显示器、打印机或数码相机）生成颜色所需的特定色料的数量，所以 Lab 被视为与设备无关的颜色模型。3）色域宽阔。它不仅包含了RGB，CMYK的所有色域，还能表现它们不能表现的色彩。人的肉眼能感知的色彩，都能通过Lab模型表现出来。另外，Lab色彩模型的绝妙之处还在于它弥补了RGB色彩模型色彩分布不均的不足，因为RGB模型在蓝色到绿色之间的过渡色彩过多，而在绿色到红色之间又缺少黄色和其他色彩。如果我们想在数字图形的处理中保留尽量宽阔的色域和丰富的色彩，最好选择Lab。下面描述一下SLIC具体实现的步骤： 1. 初始化种子点（聚类中心）：按照设定的超像素个数，在图像内均匀的分配种子点。假设图片总共有 N 个像素点，预分割为 K 个相同尺寸的超像素，那么每个超像素的大小为N/ K ，则相邻种子点的距离（步长）近似为S=sqrt(N/K)。 2. 在种子点的n*n邻域内重新选择种子点（一般取n=3）。具体方法为：计算该邻域内所有像素点的梯度值，将种子点移到该邻域内梯度最小的地方。这样做的目的是为了避免种子点落在梯度较大的轮廓边界上，以免影响后续聚类效果。 3. 在每个种子点周围的邻域内为每个像素点分配类标签（即属于哪个聚类中心）。和标准的k-means在整张图中搜索不同，SLIC的搜索范围限制为2S*2S，可以加速算法收敛，如下图。在此注意一点：期望的超像素尺寸为S*S，但是搜索的范围是2S*2S。4. 距离度量。包括颜色距离和空间距离。对于每个搜索到的像素点，分别计算它和该种子点的距离。距离计算方法如下：其中，dc代表颜色距离，ds代表空间距离，Ns是类内最大空间距离，定义为Ns=S=sqrt(N/K)，适用于每个聚类。最大的颜色距离Nc既随图片不同而不同，也随聚类不同而不同，所以我们取一个固定常数m（取值范围[1,40],一般取10）代替。最终的距离度量D'如下：由于每个像素点都会被多个种子点搜索到，所以每个像素点都会有一个与周围种子点的距离，取最小值对应的种子点作为该像素点的聚类中心。 5. 迭代优化。理论上上述步骤不断迭代直到误差收敛（可以理解为每个像素点聚类中心不再发生变化为止），实践发现10次迭代对绝大部分图片都可以得到较理想效果，所以一般迭代次数取10。6. 增强连通性。经过上述迭代优化可能出现以下瑕疵：出现多连通情况、超像素尺寸过小，单个超像素被切割成多个不连续超像素等，这些情况可以通过增强连通性解决。主要思路是：新建一张标记表，表内元素均为-1，按照“Z”型走向（从左到右，从上到下顺序）将不连续的超像素、尺寸过小超像素重新分配给邻近的超像素，遍历过的像素点分配给相应的标签，直到所有点遍历完毕为止。参考文献： [1] Achanta,Radhakrishna, et al. Slic superpixels. No. EPFL REPORT 149300. 2010. [2] Achanta,Radhakrishna, et al. "SLIC superpixels compared to state-of-the-artsuperpixel methods." Pattern Analysis and Machine Intelligence, IEEETransactions on 34.11 (2012): 2274-2282. 原文：

302 评论 8小时前发布

超像素分割论文题目

2个回答 默认排序 默认排序 按时间排序

相关问答

期刊论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序