alexnet论文发表在

2个回答默认排序

默认排序

按时间排序

boboyoung1983

已采纳

摘要：文章部分摘自链接。以kaggle上的猫狗数据集做训练，20000张训练图片，猫狗各10000张，5000张验证集，猫狗各2500张。

数据集链接

链接：

提取码：6666

@[toc]

在2012年前，图像特征都是机械地计算出来的。事实上，设计一套新的特征函数、改进结果，并撰写论文是盛极一时的潮流。SIFT [Lowe, 2004]、SURF [Bay et al., 2006]、HOG（定向梯度直方图） [Dalal & Triggs, 2005] 、bags of visual words 和类似的特征提取方法占据了主导地位。

另一组研究人员，包括Yann LeCun、Geoff Hinton、Yoshua Bengio、Andrew Ng、Shun ichi Amari和Juergen Schmidhuber，想法则与众不同：他们认为特征本身应该被学习。此外，他们还认为，在合理地复杂性前提下，特征应该由多个共同学习的神经网络层组成，每个层都有可学习的参数。在机器视觉中，最底层可能检测边缘、颜色和纹理。事实上，Alex Krizhevsky、Ilya Sutskever和Geoff Hinton提出了一种新的卷积神经网络变体AlexNet。在2012年ImageNet挑战赛中取得了轰动一时的成绩。AlexNet 以 Alex Krizhevsky 的名字命名，他是论文 [Krizhevsky et al., 2012] 的第一作者。

有趣的是，在网络的最底层，模型学习到了一些类似于传统滤波器的特征抽取器。图1 是从AlexNet论文 [Krizhevsky et al., 2012] 复制的，描述了底层图像特征。

AlexNet的更高层建立在这些底层表示的基础上，以表示更大的特征，如眼睛、鼻子、草叶等等。而更高的层可以检测整个物体，如人、飞机、狗或飞盘。最终的隐藏神经元可以学习图像的综合表示，从而使属于不同类别的数据易于区分。尽管一直有一群执着的研究者不断钻研，试图学习视觉数据的逐级表征，然而很长一段时间里这些尝试都未有突破。深度卷积神经网络的突破出现在2012年。2012年，AlexNet横空出世。它首次证明了学习到的特征可以超越手工设计的特征。它一举打破了计算机视觉研究的现状。 AlexNet使用了8层卷积神经网络，并以很大的优势赢得了2012年ImageNet图像识别挑战赛。

AlexNet和LeNet的设计理念非常相似，但也存在显著差异。首先，AlexNet比相对较小的LeNet5要深得多。 AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层。其次，AlexNet使用ReLU而不是sigmoid作为其激活函数。

测试模型是否正确

把原来ALexNet最后的全连接层的神经元数目减少了一些方便训练，最后的验证准确度差不多86%左右，训练参数7057474个。

226 评论 2小时前发布

孤星泪新民

论文中转： ImageNet Classification with Deep Convolutional Neural Networks

自Le Net-5在1998年提出以后，时隔14年，AlexNet横空问世，在2012年ImageNet竞赛中以冠军的成绩笑傲群雄，也就是从那时起，更多更优秀的网络被相继提出。论文第一作者是来自多伦多大学的Alex Krizhevsky，因此网络称为Alex Net。

在论文中，作者训练了一个大而深（相比于之前）的卷积网络用于ImageNet比赛，将120万高分辨图像分为1000个类别。在测试集上，分别达到了37.5%的top-1错误率和17.0%的top-5错误率，超越了先前最好的网络。网络共有600万参数，65万个神经元，5个卷积层加3个全连接层，输出为1000类别。为了防止过拟合，作者采用了数据扩充和dropout正则法，实验结果表明此方法非常有效；为了加快训练速度，作者采用了两块并行的GPU同时对特征图进行运算。

由于采用了双GPU模式，所以结构图呈现的是上图的样子，下面引用一张博客作者 chenyuping666 文章的图片，可以详细的了解网络内部结构与实现细节。

从上图可以看到，输入为227×227×3的图像

在conv1中，卷积核大小为11×11，步长为4，通道数为96（每台GPU运算48个，下同），经过激活函数Relu激活后，采用最大池化（size=3×3，stride=2），标准化，输出为27×27×96。

在conv2中，卷积核大小为5×5，步长为1，通道数256，先对输入特征图扩展像素为31×31（pad=2），然后卷积，激活，池化（size=3×3，stride=2），标准化，输出特征图为13×13×256。

在conv3,conv4中，卷积核大小都为3×3，步长为1，pad=1，通道数为384，经过激活后输出特征图为13×13×384。

在conv5中，卷积核大小都为3×3，步长为1，通道数为256，经过激活，池化后输出特征图为6×6×256。

在fcn6,fcn7中，共有4096个神经元，采用了dropout技术防止过拟合。

在fcn8 ，也就是最后一层，采用softmax输出1000个类别。

相比于之前的网络，AlexNet为何能取得比较好的结果呢，从作者的论文中可以发现以下几点：

3.1 非线性激活函数Relu 在之前一般使用tanh(x)或sigmoid作为激活函数，但这些饱和的线性函数在梯度的计算上非常缓慢，并且容易产生梯度消失问题。Relu的出现使这些问题得到了有效的解决。在基于cifar-10数据集的标准四层网络测试中，采用tanh和Relu作为激活函数使error rate达到0.25所用的时间，Relu比tanh快大约6倍。

3.2 多个GPU 作者认为计算资源的大小限制了网络的大小，要想训练大的网络结构，必须拥有足够的计算资源。120万的数据集太大以至于单个GPU不足以匹配，因此作者将网络的计算任务分配到两个GPU上执行。目前GPU特别适合做并行化，因为一个GPU可以直接从另一个GPU读和写内容，而不需要经过主机内存。

3.3 局部响应归一化（LRN）作者在文章中提出了Local Response Normalization的方法，分别将top-1和top-5错误率降低了1.4%和1.2%。作者在文中提到，如果训练样本产生一个正输入到Relu，网络只会在那个特定神经元上学习，但是引入局部响应正则化后，提高了网络的泛化能力。这种响应归一化会产生一种由某一神经元所激发的横向抑制，为由使用不同卷积核计算的神经元输出之中的“big activities”创造竞争。

3.4 重叠池化一般的池化操作因为没有重叠，所以pool_size 和 stride是相等的。例如6×6的图像在size=2×2的池化后，输出为3×3，但是本文使用的size

324 评论 10小时前发布

alexnet论文发表在

2个回答 默认排序 默认排序 按时间排序

相关问答

论文发表

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序