论文中转 : ImageNet Classification with Deep Convolutional Neural Networks
自Le Net-5在1998年提出以后,时隔14年,AlexNet横空问世,在2012年ImageNet竞赛中以冠军的成绩笑傲群雄,也就是从那时起,更多更优秀的网络被相继提出。论文第一作者是来自多伦多大学的Alex Krizhevsky,因此网络称为Alex Net。
在论文中,作者训练了一个大而深(相比于之前)的卷积网络用于ImageNet比赛,将120万高分辨图像分为1000个类别。在测试集上,分别达到了37.5%的top-1错误率和17.0%的top-5错误率,超越了先前最好的网络。网络共有600万参数,65万个神经元,5个卷积层加3个全连接层,输出为1000类别。为了防止过拟合,作者采用了数据扩充和dropout正则法,实验结果表明此方法非常有效;为了加快训练速度,作者采用了两块并行的GPU同时对特征图进行运算。
由于采用了双GPU模式,所以结构图呈现的是上图的样子,下面引用一张博客作者 chenyuping666 文章的图片,可以详细的了解网络内部结构与实现细节。
从上图可以看到,输入为227×227×3的图像
在conv1中 ,卷积核大小为11×11,步长为4,通道数为96(每台GPU运算48个,下同),经过激活函数Relu激活后,采用最大池化(size=3×3,stride=2),标准化,输出为27×27×96。
在conv2中 ,卷积核大小为5×5,步长为1,通道数256,先对输入特征图扩展像素为31×31(pad=2),然后卷积,激活,池化(size=3×3,stride=2),标准化,输出特征图为13×13×256。
在conv3,conv4中 ,卷积核大小都为3×3,步长为1,pad=1,通道数为384,经过激活后输出特征图为13×13×384。
在conv5中 ,卷积核大小都为3×3,步长为1,通道数为256,经过激活,池化后输出特征图为6×6×256。
在fcn6,fcn7中 ,共有4096个神经元,采用了dropout技术防止过拟合。
在fcn8 ,也就是最后一层,采用softmax输出1000个类别。
相比于之前的网络,AlexNet为何能取得比较好的结果呢,从作者的论文中可以发现以下几点:
3.1 非线性激活函数Relu 在之前一般使用tanh(x)或sigmoid作为激活函数,但这些饱和的线性函数在梯度的计算上非常缓慢,并且容易产生梯度消失问题。Relu的出现使这些问题得到了有效的解决。在基于cifar-10数据集的标准四层网络测试中,采用tanh和Relu作为激活函数使error rate达到0.25所用的时间,Relu比tanh快大约6倍。
3.2 多个GPU 作者认为计算资源的大小限制了网络的大小,要想训练大的网络结构,必须拥有足够的计算资源。120万的数据集太大以至于单个GPU不足以匹配,因此作者将网络的计算任务分配到两个GPU上执行。目前GPU特别适合做并行化,因为一个GPU可以直接从另一个GPU读和写内容,而不需要经过主机内存。
3.3 局部响应归一化(LRN) 作者在文章中提出了Local Response Normalization的方法,分别将top-1和top-5错误率降低了1.4%和1.2%。作者在文中提到,如果训练样本产生一个正输入到Relu,网络只会在那个特定神经元上学习,但是引入局部响应正则化后,提高了网络的泛化能力。这种响应归一化会产生一种由某一神经元所激发的横向抑制,为由使用不同卷积核计算的神经元输出之中的“big activities”创造竞争。
3.4 重叠池化 一般的池化操作因为没有重叠,所以pool_size 和 stride是相等的。例如6×6的图像在size=2×2的池化后,输出为3×3,但是本文使用的size 发表论文通常只有两种渠道,要么自己投,要么找论文发表机构代投,不管走哪种渠道,最后都是要发表到期刊上的。 期刊,也叫杂志,在上个世纪在出版界曾经是重量级的存在,那个时候互联网还没有兴起,人们阅读文章获取资讯远远没有现在方便,杂志就成为一个很重要的传播媒介。 但现在随着社会的进步,科技的发展,纸媒已经大大没落了,很多期刊被砍掉了,剩下来的大多数不得不自谋出路,学术期刊更是如此,因为这个受众面是很窄的,基本没法盈利,所以只能靠收取版面费来维持,当然,有国家财政拨款的那种不在这个范围。 我们现在发表学术论文,出于严谨性权威性等原因的考虑,还是要发表到纸质期刊上,编辑会用电子邮箱或者内部的系统来收稿,但不会有一个网络平台有发表论文的资质,即使是知网和万方这样的网站,也只是论文数据库,并不是论文发表平台。 所以发表论文的时候,还是要先去选取目标期刊,然后再找到这本期刊的投稿邮箱,或者是找到靠谱的论文发表机构,由代理进行代投,最后都是发表到纸质期刊上的,见刊后一两个月左右被知网收录,就可以检索到了。 爱因斯坦于1905年首次提出狭义相对论原理,论文发表在《物理学年鉴》上,同年,他对狭义相对论作了重要补充,并为辐射问题建立了最初形式的质能关系式。1907年,爱因斯坦完成了一篇通俗性的相对论文,其中包含一般形式的质能关系式:E =mc2.他的卓越论文建立了全新的质量、时间和空间概念,并向同时 性观念提出了挑战。相对论的伟大意义在于:它抛弃了“绝对”时空观和空间充满以太的思想;当时,以太被看作是光以及其它形式的电磁波传播媒介。现在看来,1905年6月爱因斯坦关于相对论的开创性论文在《物理学年鉴》上发表 《物理年鉴》(德语:Annalen der Physik),又译《物理学年鉴》、《物理学记事》,是自1799年刊行至今的德国物理学期刊。期刊刊发实验物理、理论物理、应用物理、数学物理等相关领域的原创、经过同行评审的文章。 摘要:文章部分摘自 链接 。以kaggle上的猫狗数据集做训练,20000张训练图片,猫狗各10000张,5000张验证集,猫狗各2500张。 数据集链接 链接: 提取码:6666 @[toc] 在2012年前,图像特征都是机械地计算出来的。事实上,设计一套新的特征函数、改进结果,并撰写论文是盛极一时的潮流。SIFT [Lowe, 2004]、SURF [Bay et al., 2006]、HOG(定向梯度直方图) [Dalal & Triggs, 2005] 、bags of visual words 和类似的特征提取方法占据了主导地位。 另一组研究人员,包括Yann LeCun、Geoff Hinton、Yoshua Bengio、Andrew Ng、Shun ichi Amari和Juergen Schmidhuber,想法则与众不同:他们认为特征本身应该被学习。此外,他们还认为,在合理地复杂性前提下,特征应该由多个共同学习的神经网络层组成,每个层都有可学习的参数。在机器视觉中,最底层可能检测边缘、颜色和纹理。事实上,Alex Krizhevsky、Ilya Sutskever和Geoff Hinton提出了一种新的卷积神经网络变体AlexNet。在2012年ImageNet挑战赛中取得了轰动一时的成绩。AlexNet 以 Alex Krizhevsky 的名字命名,他是论文 [Krizhevsky et al., 2012] 的第一作者。 有趣的是,在网络的最底层,模型学习到了一些类似于传统滤波器的特征抽取器。 图1 是从AlexNet论文 [Krizhevsky et al., 2012] 复制的,描述了底层图像特征。 AlexNet的更高层建立在这些底层表示的基础上,以表示更大的特征,如眼睛、鼻子、草叶等等。而更高的层可以检测整个物体,如人、飞机、狗或飞盘。最终的隐藏神经元可以学习图像的综合表示,从而使属于不同类别的数据易于区分。尽管一直有一群执着的研究者不断钻研,试图学习视觉数据的逐级表征,然而很长一段时间里这些尝试都未有突破。深度卷积神经网络的突破出现在2012年。2012年,AlexNet横空出世。它首次证明了学习到的特征可以超越手工设计的特征。它一举打破了计算机视觉研究的现状。 AlexNet使用了8层卷积神经网络,并以很大的优势赢得了2012年ImageNet图像识别挑战赛。 AlexNet和LeNet的设计理念非常相似,但也存在显著差异。 首先,AlexNet比相对较小的LeNet5要深得多。 AlexNet由八层组成:五个卷积层、两个全连接隐藏层和一个全连接输出层。 其次,AlexNet使用ReLU而不是sigmoid作为其激活函数。 测试模型是否正确 把原来ALexNet最后的全连接层的神经元数目减少了一些方便训练,最后的验证准确度差不多86%左右,训练参数7057474个。 论文中转 : ImageNet Classification with Deep Convolutional Neural Networks 自Le Net-5在1998年提出以后,时隔14年,AlexNet横空问世,在2012年ImageNet竞赛中以冠军的成绩笑傲群雄,也就是从那时起,更多更优秀的网络被相继提出。论文第一作者是来自多伦多大学的Alex Krizhevsky,因此网络称为Alex Net。 在论文中,作者训练了一个大而深(相比于之前)的卷积网络用于ImageNet比赛,将120万高分辨图像分为1000个类别。在测试集上,分别达到了37.5%的top-1错误率和17.0%的top-5错误率,超越了先前最好的网络。网络共有600万参数,65万个神经元,5个卷积层加3个全连接层,输出为1000类别。为了防止过拟合,作者采用了数据扩充和dropout正则法,实验结果表明此方法非常有效;为了加快训练速度,作者采用了两块并行的GPU同时对特征图进行运算。 由于采用了双GPU模式,所以结构图呈现的是上图的样子,下面引用一张博客作者 chenyuping666 文章的图片,可以详细的了解网络内部结构与实现细节。 从上图可以看到,输入为227×227×3的图像 在conv1中 ,卷积核大小为11×11,步长为4,通道数为96(每台GPU运算48个,下同),经过激活函数Relu激活后,采用最大池化(size=3×3,stride=2),标准化,输出为27×27×96。 在conv2中 ,卷积核大小为5×5,步长为1,通道数256,先对输入特征图扩展像素为31×31(pad=2),然后卷积,激活,池化(size=3×3,stride=2),标准化,输出特征图为13×13×256。 在conv3,conv4中 ,卷积核大小都为3×3,步长为1,pad=1,通道数为384,经过激活后输出特征图为13×13×384。 在conv5中 ,卷积核大小都为3×3,步长为1,通道数为256,经过激活,池化后输出特征图为6×6×256。 在fcn6,fcn7中 ,共有4096个神经元,采用了dropout技术防止过拟合。 在fcn8 ,也就是最后一层,采用softmax输出1000个类别。 相比于之前的网络,AlexNet为何能取得比较好的结果呢,从作者的论文中可以发现以下几点: 3.1 非线性激活函数Relu 在之前一般使用tanh(x)或sigmoid作为激活函数,但这些饱和的线性函数在梯度的计算上非常缓慢,并且容易产生梯度消失问题。Relu的出现使这些问题得到了有效的解决。在基于cifar-10数据集的标准四层网络测试中,采用tanh和Relu作为激活函数使error rate达到0.25所用的时间,Relu比tanh快大约6倍。 3.2 多个GPU 作者认为计算资源的大小限制了网络的大小,要想训练大的网络结构,必须拥有足够的计算资源。120万的数据集太大以至于单个GPU不足以匹配,因此作者将网络的计算任务分配到两个GPU上执行。目前GPU特别适合做并行化,因为一个GPU可以直接从另一个GPU读和写内容,而不需要经过主机内存。 3.3 局部响应归一化(LRN) 作者在文章中提出了Local Response Normalization的方法,分别将top-1和top-5错误率降低了1.4%和1.2%。作者在文中提到,如果训练样本产生一个正输入到Relu,网络只会在那个特定神经元上学习,但是引入局部响应正则化后,提高了网络的泛化能力。这种响应归一化会产生一种由某一神经元所激发的横向抑制,为由使用不同卷积核计算的神经元输出之中的“big activities”创造竞争。 3.4 重叠池化 一般的池化操作因为没有重叠,所以pool_size 和 stride是相等的。例如6×6的图像在size=2×2的池化后,输出为3×3,但是本文使用的size 论文中转 : ImageNet Classification with Deep Convolutional Neural Networks 自Le Net-5在1998年提出以后,时隔14年,AlexNet横空问世,在2012年ImageNet竞赛中以冠军的成绩笑傲群雄,也就是从那时起,更多更优秀的网络被相继提出。论文第一作者是来自多伦多大学的Alex Krizhevsky,因此网络称为Alex Net。 在论文中,作者训练了一个大而深(相比于之前)的卷积网络用于ImageNet比赛,将120万高分辨图像分为1000个类别。在测试集上,分别达到了37.5%的top-1错误率和17.0%的top-5错误率,超越了先前最好的网络。网络共有600万参数,65万个神经元,5个卷积层加3个全连接层,输出为1000类别。为了防止过拟合,作者采用了数据扩充和dropout正则法,实验结果表明此方法非常有效;为了加快训练速度,作者采用了两块并行的GPU同时对特征图进行运算。 由于采用了双GPU模式,所以结构图呈现的是上图的样子,下面引用一张博客作者 chenyuping666 文章的图片,可以详细的了解网络内部结构与实现细节。 从上图可以看到,输入为227×227×3的图像 在conv1中 ,卷积核大小为11×11,步长为4,通道数为96(每台GPU运算48个,下同),经过激活函数Relu激活后,采用最大池化(size=3×3,stride=2),标准化,输出为27×27×96。 在conv2中 ,卷积核大小为5×5,步长为1,通道数256,先对输入特征图扩展像素为31×31(pad=2),然后卷积,激活,池化(size=3×3,stride=2),标准化,输出特征图为13×13×256。 在conv3,conv4中 ,卷积核大小都为3×3,步长为1,pad=1,通道数为384,经过激活后输出特征图为13×13×384。 在conv5中 ,卷积核大小都为3×3,步长为1,通道数为256,经过激活,池化后输出特征图为6×6×256。 在fcn6,fcn7中 ,共有4096个神经元,采用了dropout技术防止过拟合。 在fcn8 ,也就是最后一层,采用softmax输出1000个类别。 相比于之前的网络,AlexNet为何能取得比较好的结果呢,从作者的论文中可以发现以下几点: 3.1 非线性激活函数Relu 在之前一般使用tanh(x)或sigmoid作为激活函数,但这些饱和的线性函数在梯度的计算上非常缓慢,并且容易产生梯度消失问题。Relu的出现使这些问题得到了有效的解决。在基于cifar-10数据集的标准四层网络测试中,采用tanh和Relu作为激活函数使error rate达到0.25所用的时间,Relu比tanh快大约6倍。 3.2 多个GPU 作者认为计算资源的大小限制了网络的大小,要想训练大的网络结构,必须拥有足够的计算资源。120万的数据集太大以至于单个GPU不足以匹配,因此作者将网络的计算任务分配到两个GPU上执行。目前GPU特别适合做并行化,因为一个GPU可以直接从另一个GPU读和写内容,而不需要经过主机内存。 3.3 局部响应归一化(LRN) 作者在文章中提出了Local Response Normalization的方法,分别将top-1和top-5错误率降低了1.4%和1.2%。作者在文中提到,如果训练样本产生一个正输入到Relu,网络只会在那个特定神经元上学习,但是引入局部响应正则化后,提高了网络的泛化能力。这种响应归一化会产生一种由某一神经元所激发的横向抑制,为由使用不同卷积核计算的神经元输出之中的“big activities”创造竞争。 3.4 重叠池化 一般的池化操作因为没有重叠,所以pool_size 和 stride是相等的。例如6×6的图像在size=2×2的池化后,输出为3×3,但是本文使用的size 发表论文通常只有两种渠道,要么自己投,要么找论文发表机构代投,不管走哪种渠道,最后都是要发表到期刊上的。 期刊,也叫杂志,在上个世纪在出版界曾经是重量级的存在,那个时候互联网还没有兴起,人们阅读文章获取资讯远远没有现在方便,杂志就成为一个很重要的传播媒介。 但现在随着社会的进步,科技的发展,纸媒已经大大没落了,很多期刊被砍掉了,剩下来的大多数不得不自谋出路,学术期刊更是如此,因为这个受众面是很窄的,基本没法盈利,所以只能靠收取版面费来维持,当然,有国家财政拨款的那种不在这个范围。 我们现在发表学术论文,出于严谨性权威性等原因的考虑,还是要发表到纸质期刊上,编辑会用电子邮箱或者内部的系统来收稿,但不会有一个网络平台有发表论文的资质,即使是知网和万方这样的网站,也只是论文数据库,并不是论文发表平台。 所以发表论文的时候,还是要先去选取目标期刊,然后再找到这本期刊的投稿邮箱,或者是找到靠谱的论文发表机构,由代理进行代投,最后都是发表到纸质期刊上的,见刊后一两个月左右被知网收录,就可以检索到了。 此篇文章是AlexNet的产生 在2010年的ImageNet LSVRC-2010上,AlexNet在给包含有1000种类别的共120万张高分辨率图片的分类任务中,在测试集上的top-1和top-5错误率为37.5%和17.0%(top-5 错误率:即对一张图像预测5个类别,只要有一个和人工标注类别相同就算对,否则算错。同理top-1对一张图像只预测1个类别),在ImageNet LSVRC-2012的比赛中,取得了top-5错误率为15.3%的成绩。AlexNet有6亿个参数和650,000个神经元,包含5个卷积层,有些层后面跟了max-pooling层,3个全连接层,为了减少过拟合,在全连接层使用了dropout,下面进行更加详细的介绍。 数据来源于ImageNet,训练集包含120万张图片,验证集包含5万张图片,测试集包含15万张图片,这些图片分为了1000个类别,并且有多种不同的分辨率,但是AlexNet的输入要求是固定的分辨率,为了解决这个问题,Alex的团队采用低采样率把每张图片的分辨率降为256×256,具体方法就是给定一张矩形图像,首先重新缩放图像,使得较短边的长度为256,然后从结果图像的中心裁剪出256×256大小的图片。 在当时,标准的神经元激活函数是tanh()函数,这种饱和的非线性函数在梯度下降的时候要比非饱和的非线性函数慢得多,因此,在AlexNet中使用ReLU函数作为激活函数。figure1展示了在一个4层的卷积网络中使用ReLU函数在CIFAR-10数据集上达到25%的训练错误率要比在相同网络相同条件下使用tanh函数快6倍。 AlexNet采用两路GTX 580 3G并行训练,将一半的kernals或neurons放在每个GPU上,且GPU只在特定的层进行通信。 ReLU函数不像tanh和sigmoid一样有一个有限的值域区间,所以在ReLU之后需要进行归一化处理,LRN的思想来源于神经生物学中一个叫做“侧抑制”的概念,指的是被激活的神经元抑制周围的神经元。计算公式: bi x,y表示第i个卷积核进行卷积计算再通过ReLU之后的输出在位置(x,y)处神经元的激活值 ai x,y表示归一化之后的值 n表示与卷积核i毗邻的k个卷积核,超参数,一般设为5 N表示卷积核的总数 α = 10−4, and β = 0.75 两个超参数 重叠池化就是指相邻池化窗口之间有重叠部分,更确切地说,池化层可以看作是由间隔为s的池化单元的网格组成,每个池化单元总结了以合并单元的位置为中心的大小为z × z的邻域,即池化大小为z,步长为s,当s < z时就是重叠池化。在整个网络中使用了s = 2, z = 3 网络的最后一层(Full8)的输出喂给了一个包含1000个单元的softmax层,用来对1000个标签进行预测。 响应归一化层(Response-normalization layers)跟在第1和第2卷积层后面,Max-pooling层跟在Response-normalization层和第5卷积层后面 ,ReLU激活函数应用与所有卷积层和全连接层输出后。 早期最常见的针对图像数据减少过拟合的方法就是人工地增大数据集,AlexNet中使用了两种增大数据量的方法: 第一,镜像反射和随机剪裁。 先对图像做镜像反射,然后在原图和镜像反射的图(256×256)中随机抽取227×227的块。通过这种方法,使得训练集的大小增大了2048倍,尽管由此产生的训练样例会产生高度的相互依赖。但是不使用这种方法又会导致严重的过拟合,迫使我们使用更小的网络。在测试的时候,AlexNet会抽取测试样本及其镜像反射图各5块(总共10块,四个角和中心位置)来进行预测,预测结果是这10个块的softmax块的平均值。 第二,改变训练图像中RGB通道的强度 对整个ImageNet训练集的RGB像素值集进行PCA(主成分分析),对于每张图片,将找到的主成分的倍数相加,其大小与相应的特征值成比例,乘以均值为0,标准偏差为0.1的高斯分布所绘制的随机变量。 pi和λi分别为RGB像素值的3 × 3协方差矩阵的第i个特征向量和特征值,αi即前面提到的随机变量,对于一个特定训练图像的所有像素,每个αi只绘制一次,直到该图像被再次用于训练,这时它被重新绘制。该方案近似地捕捉到了自然图像的一个重要特性,即物体标识不随光照强度和颜色的变化而变化。 在AlexNet中设置的失活概率为0.5,在测试的时候,再使用所用的神经元但是要给它们的输出都乘以0.5。 AlexNet使用随机梯度下降算法,batch大小是128,动量衰减参数设置为0.9,权重衰减参数为0.0005,这里的权重衰减不仅仅是一个正规化器,同时它减少了模型的训练误差,权重 的更新过程变为: 其中, 是迭代次数索引, 是momentum变量, 是学习速率, 是第 个batch中 的梯度的平均值。 另外,在AlexNet中,所以层的权重 初始化为服从0均值,标准差为0.001的高斯分布,第2、4、5卷积层以及全连接层的偏置量 初始化为1,这样做的好处是它通过给ReLU函数一个正激励从而加速早期学习的速度。其他层的偏置量初始化为0. 上一篇文章中的LeNet-5是第一个广为人知的经典CNN网络,但那是20年前提出的CNN网络,最成功的案例是解决了手写数字识别的问题,当时被广泛应用于邮局/银行的手写邮编/支票数字自动识别系统。但直到2012年之前,在这14年间,CNN网络在图像识别领域的地位逐渐被其他分类模型如SVM取代。其中主要的原因有(事后诸葛亮......): 经过十几年的发展,以上制约CNN网络发展的主要限制因素一个个被解决,结果在2012年的ImageNet竞赛中,继LeNet-5之后的第二个经典CNN网络—AlexNet横空出世。以超出第二名10%以上的top-5准确率,勇夺ImageNet2012分类比赛的冠军,从此, 深度学习 重新回到人们的视野,并一发不可收拾。 下面从一些直观的数据比较1998年的LeNet-5和2012年的AlexNet的区别: AlexNet网络结构如下图所示: 论文中由于使用了2块GPU,将网络结构布置成了上下两部分,看着很不方便,上图是在网上找的简易版本。 下面总结AlexNet的主要特点: 3.1. 使引入Relu激活函数减轻深度网络难以训练的问题 关于CNN网络的激活函数的讨论,SigAI公众号这篇文章总结的挺好: 另外,下面这篇论文对深度网络难以训练的问题进行了分析: 之前的CNN网络,包括前面著名的LeNet-5,都使用tanh/Sigmoid作为激活函数,这类激活函数具有饱和性,在训练深层网络时会造成梯度消失问题,而AlexNet引入了非饱和的Relu激活函数,有效地缓解了梯度消失问题。 3.2. 解决深度网络的过拟合问题 一方面,近几年来,人们越来越意识到构建庞大的数据集的重要性,于是出现了像ImageNet这样超过1500万张标注图片,2200多种类别的数据集,ILSVRC2012中,AlexNet使用了150万张图片的庞大训练集,使得拥有6000万个参数的AlexNet也没出现严重过拟合问题; 另外,AlexNet在训练时使用了数据增强(data augmentation)策略,相当于进一步扩大了训练数据集; 最后,AlexNet在全连接层部分引入了一个dropout层,同样能有效防止模型出现过拟合。 3.3. 计算能力问题 尽管AlexNet的模型复杂度很大,但其利用了英伟达GPU强大的计算能力,在GPU面前,模型复杂度不是问题。 从模型的设计思路来看,其实AlexNet遵循了LeNet-5的思想,即使用交替的卷积层和池化层用于提取图像的高级语义特征,同时降低特征尺寸。然后使用全连接层/MLP作为分类层。 但是,在细节部分,ALexNet引入了很多新的元素,用于解决以上提到的CNN网络遇到的诸多问题,使得CNN网络开始重新散发光芒。 论文名称:Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间:2014年 论文地址: 针对问题: 从Alexnet提出后,作者等人思考如何利用卷积网络来完成检测任务,即输入一张图,实现图上目标的定位(目标在哪)和分类(目标是什么)两个目标,并最终完成了RCNN网络模型。 创新点: RCNN提出时,检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢,作者采用的是Selective Search候选区域提取算法,来获得当前输入图上可能包含目标的不同图像块,再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。 参考博客: 。 论文题目:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间:2014年 论文地址: 针对问题: 该论文讨论了,CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后,在网络后端组织两组卷积或全连接层,一组用于实现定位,输出当前图像上目标的最小外接矩形框坐标,一组用于分类,输出当前图像上目标的类别信息。也是以此为起点,检测网络出现基础主干网络(backbone)+分类头或回归头(定位头)的网络设计模式雏形。 创新点: 在这篇论文中还有两个比较有意思的点,一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的,而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制,那用1x1卷积来替换FC层,是否可行呢?作者在测试时通过将全连接层替换为1x1卷积核证明是可行的;二是提出了offset max-pooling,也就是对池化层输入特征不能整除的情况,通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练,然后切换分类头为回归头,再训练回归头的参数,最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。 参考博客: 论文题目:Scalable Object Detection using Deep Neural Networks 提出时间:2014年 论文地址: 针对问题: 既然CNN网络提取的特征可以直接用于检测任务(定位+分类),作者就尝试将目标框(可能包含目标的最小外包矩形框)提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。 创新点: 本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心,(800个anchor box)然后学习预测不考虑目标类别的二分类网络,背景or前景。用到了多尺度下的检测。 参考博客: 论文题目:DeepBox: Learning Objectness with Convolutional Networks 提出时间:2015年ICCV 论文地址: 主要针对的问题: 本文完成的工作与第三篇类似,都是对目标框提取算法的优化方案,区别是本文首先采用自底而上的方案来提取图像上的疑似目标框,然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序;而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点: 本文作者想通过CNN学习输入图像的特征,从而实现对输入网络目标框是否为真实目标的情况进行计算,量化每个输入框的包含目标的可能性值。 参考博客: 论文题目:AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间:2015年ICCV 论文地址: 主要针对的问题: 对检测网络的实现方案进行思考,之前的执行策略是,先确定输入图像中可能包含目标位置的矩形框,再对每个矩形框进行分类和回归从而确定目标的准确位置,参考RCNN。那么能否直接利用回归的思路从图像的四个角点,逐渐得到目标的最小外接矩形框和类别呢? 创新点: 通过从图像的四个角点,逐步迭代的方式,每次计算一个缩小的方向,并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。 参考博客: 论文题目:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间:2014年 论文地址: 针对问题: 如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络,在处理过程中就造成了图像块信息的损失。在实际的场景中,输入网络的目标尺寸很难统一,而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点: 作者提出的SPPnet中,通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸,在训练的时候,池化的操作还是通过滑动窗口完成的,池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。 参考博客 : 论文题目:Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间:2015年 论文地址: 针对问题: 既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位,本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点: 作者通过对输入网络的region进行一定的处理(通过数据增强,使得网络利用目标周围的上下文信息得到更精准的目标框)来增加网络对目标回归框的精度。具体的处理方式包括:扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置,使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性,从而提高了回归框的精度。 参考博客 : 论文题目:Fast-RCNN 提出时间:2015年 论文地址: 针对问题: RCNN中的CNN每输入一个图像块就要执行一次前向计算,这显然是非常耗时的,那么如何优化这部分呢? 创新点: 作者参考了SPPNet(第六篇论文),在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸,从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图,再将原图上用Selective Search算法得到的目标框映射到特征图上,避免了特征的重复提取。 参考博客 : 论文题目:DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间:2015年 论文地址: 主要针对的问题: 本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文,作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。 创新点: 作者在不同的激活层上以滑动窗口的方式生成了假设,并表明最终的卷积层可以以较高的查全率找到感兴趣的对象,但是由于特征图的粗糙性,定位性很差。相反,网络的第一层可以更好地定位感兴趣的对象,但召回率降低。 论文题目:Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间:2015年NIPS 论文地址: 主要针对的问题: 由multibox(第三篇)和DeepBox(第四篇)等论文,我们知道,用CNN可以生成目标待检测框,并判定当前框为目标的概率,那能否将该模型整合到目标检测的模型中,从而实现真正输入端为图像,输出为最终检测结果的,全部依赖CNN完成的检测系统呢? 创新点: 将当前输入图目标框提取整合到了检测网络中,依赖一个小的目标框提取网络RPN来替代Selective Search算法,从而实现真正的端到端检测算法。 参考博客 : 这是一篇发表于2014年很经典的论文,形成了很多对卷积神经网络的普遍认识,目前的引用数为 1315 ,主要工作是 AlexNet 的可视化,以及在此基础上做了一些分析,对于理解卷积神经网络很有裨益。 可视化方法主要是 通过 deconv 的方法将某一层特征图的 Top-k 激活反向投射到原图像上 ,从而判断该激活值主要识别图像的什么部分。这就要求针对每一层都必须有对应的逆向操作。具体而言,对于 MaxPooling 层,在前馈时使用 switch 变量来记录最大值来源的 index ,然后以此近似得到 Unpooling 。对于 Relu 层,直接使用 Relu 层。而对于 conv层 ,使用 deconv ,即使用原来卷积核的转置作为卷积核(PS:此文作者在2011年提出了 deconvnet 。本文引用了该文献。)。反向重建过程如下图所示: 通过上面的可视化方法,作者对‘AlexNet 的各层的 Top-9`激活值进行了可视化,如下图所示: 分析上述特征图,作者发现了网络特征的层级特性。第二层对应边、角、颜色的识别,而第三层具有更多的不变性,捕获了一些纹理特征。第四层显示了类别的重要差异,比如狗的脸啊,鸟的脚等等。第五层则开始关注目标整体。这形成了对于神经网络的认识,底层网络专注于识别低级特征,更高层网络通过对下层低级特征的组合抽象形成更高级的特征。 作者利用这种可视化方法,找出了原 AlexNet 结构的问题(比如第一层缺少中频信息,第二层由于步长太大导致了一些叠加效应等等)并对结构进行了改变,之后进行了对比,发现改变之后的模型 top-5 性能高于原网络。作者还进行了遮挡敏感性和一致性分析,具体详见论文。 此处的结果是最令我震撼的,它回答了一个久久困扰我的问题:为什么目前用的卷积网络都是 VGG , ZF , ResNet 之类的基于 Imagenet 的网络架构作为 backbone network ? 首先,作者进行了网络结构尺寸调整实验。去除掉包含大部分网络参数最后两个全连接层之后,网络性能下降很少;去掉中间两层卷积层之后,网络性能下降也很少;但是当把上述的全连接层和卷积层都去掉之后,网络性能急剧下降,由此作者得出结论:模型深度对于模型性能很重要,存在一个最小深度,当小于此深度时,模型性能大幅下降。 然后,就是最震撼的结果了。作者使用 AlexNet 去做 Caltech-101 , Caltech-256 和 PASCAL VOC 2012 ,得到以下结果: 解释一下,表中的 Non-pretr 表示没有使用 Imagenet 预训练结果,而是使用新的训练集重新训练,结果表现非常糟糕;而 ImageNet-pretr 表示使用了 Imagenet 的预训练结果,作者固定了原来网络的权值,只是使用新数据训练了 softmax 分类器,效果非常好。这就形成了目前的人们对于卷积神经网络的共识:卷积网络相当于一个特征提取器。特征提取器是通用的,因为 ImageNet 数据量,类别多,所以由 ImageNet 训练出来的特征提取器更具有普遍性。也正是因为此,目前的卷积神经网络的 Backbone Network 基本上都是 Imagenet 上训练出来的网络。那么试想一下,如果继续增加数据量,将类别扩展到10k、100k、 1M等等,是不是能够得到更加通用更好的特征提取器,如此,是不是就能向 General AI 更近一步呢?当然,这样做的话需要大量的投入,那么可不可以像人类基因组计划那样分工合作呢,那样的话,必将是一番很壮丽的景象。另外,也可以从其他角度进行考虑,可以类似于人类的认知方式,采用 人类陪同教导 的方式让机器持续学习,最后再综合起来,或许可以得到更好的AI。 推荐一个很好的交互神经网络可视化网站: 3D convolutional network visualization ,可以很好地帮助理解神经网络的过程。友情提示: 发表论文通常只有两种渠道,要么自己投,要么找论文发表机构代投,不管走哪种渠道,最后都是要发表到期刊上的。 期刊,也叫杂志,在上个世纪在出版界曾经是重量级的存在,那个时候互联网还没有兴起,人们阅读文章获取资讯远远没有现在方便,杂志就成为一个很重要的传播媒介。 但现在随着社会的进步,科技的发展,纸媒已经大大没落了,很多期刊被砍掉了,剩下来的大多数不得不自谋出路,学术期刊更是如此,因为这个受众面是很窄的,基本没法盈利,所以只能靠收取版面费来维持,当然,有国家财政拨款的那种不在这个范围。 我们现在发表学术论文,出于严谨性权威性等原因的考虑,还是要发表到纸质期刊上,编辑会用电子邮箱或者内部的系统来收稿,但不会有一个网络平台有发表论文的资质,即使是知网和万方这样的网站,也只是论文数据库,并不是论文发表平台。 所以发表论文的时候,还是要先去选取目标期刊,然后再找到这本期刊的投稿邮箱,或者是找到靠谱的论文发表机构,由代理进行代投,最后都是发表到纸质期刊上的,见刊后一两个月左右被知网收录,就可以检索到了。 大部分论文都在期刊上发表,CN期刊。 少数的是发表到国外的期刊,或者直接是在杂志的官网上线,比如SCI。对于大多数人来说,发表CN期刊就可以了。 期刊,定期出版的刊物。如周刊、旬刊、半月刊、月刊、季刊、半年刊、年刊等。由依法设立的期刊出版单位出版刊物。期刊出版单位出版期刊,必须经新闻出版总署批准,持有国内统一连续出版物号,领取《期刊出版许可证》。 广义上分类 从广义上来讲,期刊的分类,可以分为非正式期刊和正式期刊两种。非正式期刊是指通过行政部门审核领取“内部报刊准印证”作为行业内部交流的期刊(一般只限行业内交流不公开发行),但也是合法期刊的一种,一般正式期刊都经历过非正式期刊过程。 正式期刊是由国家新闻出版署与国家科委在商定的数额内审批,并编入“国内统一刊号”,办刊申请比较严格,要有一定的办刊实力,正式期刊有独立的办刊方针。 “国内统一刊号”是“国内统一连续出版物号”的简称,即“CN号”,它是新闻出版行政部门分配给连续出版物的代号。“国际刊号”是“国际标准连续出版物号”的简称,即“ISSN号”,我国大部分期刊都配有“ISSN号”。 此外,正像报纸一样,期刊也可以不同的角度分类。有多少个角度就有多少种分类的结果,角度太多则流于繁琐。一般从以下三个角度进行分类: 按学科分类 以《中国图书馆图书分类法.期刊分类表》为代表,将期刊分为五个基本部类: (1)思想(2)哲学(3)社会科学(4)自然科学(5)综合性刊物。在基本部类中,又分为若干大类,如社会科学分为社会科学总论、政治、军事、经济、文化、科学、教育、体育、语言、文字、文学、艺术、历史、地理。 按内容分类 以《中国大百科全书》新闻出版卷为代表,将期刊分为四大类: (1)一般期刊,强调知识性与趣味性,读者面广,如我国的《人民画报》、《大众电影》,美国的《时代》、《读者文摘》等; (2)学术期刊,主要刊载学术论文、研究报告、评论等文章,以专业工作者为主要对象; (3)行业期刊,主要报道各行各业的产品、市场行情、经营管理进展与动态,如中国的《摩托车信息》、《家具》、日本的《办公室设备与产品》等; (4)检索期刊,如我国的《全国报刊索引》、《全国新书目》,美国的《化学文摘》等。 按学术地位分类 可分为核心期刊和非核心期刊(通常所说的普刊)两大类。 关于核心期刊 核心期刊,是指在某一学科领域(或若干领域)中最能反映该学科的学术水平,信息量大,利用率高,受到普遍重视的权威性期刊。alexnet论文发表在
AlexNet论文发表在那
alexnet论文发表时间
在哪里发表论文在哪找