vgg16论文查重

3个回答默认排序

默认排序

按时间排序

草本Jing樺

已采纳

作为近两年detector和descriptor joint learning（也称one-stage）类型论文的又一代表，D2-Net是一种相当特别的结构。其特点是“一图两用”，即网络预测出的dense tensor即是detection score maps，又是description map特征图即代表特征检测结果又代表特征描述结果（注意预测的特征图并不是原图分辨率大小）。换句话说，D2-Net的特征检测模块和描述模块是高度耦合的。本文主要针对的是appearance变化较大（包括日-夜变化、大的视角变化等）场景下的图像匹配任务。文章作者比较了两种局部特征学习方法：sparse方法和dense方法。其中sparse方法高效，但是在appearance变化大的场景提取不到可重复的关键点，其原因在于特征提取器只使用浅层图像信息，不使用语义信息；dense方法则直接利用深层特征提取密集特征描述，更加鲁棒却以更高的匹配时间和内存开销为代价。因此作者的目的在于，提出一种足够鲁棒的sparse local feature，让其提取的特征（兴趣点）具有更好的repeatability，进而实现既有sparse方法的高效性，又有dense方法的鲁棒性。其核心idea是将特征提取阶段延后，使得局部特征也可以利用高层语义信息，而不是只考虑低层信息。问题：关于这里的sparse和dense方法关键词：A single CNN plays a dual role; joint optimization; different train/test model structure 不同于SuperPoint或者SEKD，本文虽然也是dense prediction类型的结构，但并不同时预测kpt和description两个图，而是只预测了一个形状为HxWxd（d为特征描述的长度）的特征图，然后既作描述结果又作检测结果…从spatial维度来说，该特征图的每个像素位置是一个描述子；从channel维度来说，每一个通道代表一个特征检测器的检测结果，总共得到d个2D响应图，这里可以用SIFT中的高斯差分金字塔响应来类比。后续的兴趣点提取需要对这个d通道的特征图做进一步的后处理: 按照上面对D2特征图的定义，如果(i,j)位置是一个兴趣点，则从通道维度来说该像素位置最终的检测结果肯定要取检测器响应值最大的通道对应数值，这样就选出了通道；从空间维度来说又要满足该位置在该通道的2D map必须为一个局部最大值。即本文中的"hard feature detection"：首先对输入图像构建图像金字塔，然后在每个scale上进行forward，得到D2特征图，再把多尺度特征图逐scale上采样并与同分辨率融合（见下式），得到融合后的特征图。预测阶段根据融合特征图进行上述后处理，即可提取出特征点。由于上述特点，网络结构本身发非常简单，直接用VGG16 conv4_3之前的部分，恢复ImageNet上的预训练权重，然后除了最后一层conv4_3之外全部冻结，只对该层做微调。不过关于模型，有两个值得注意的地方： 1.使用VGG16的结果比ReseNet好很多 2.训练时和测试时的模型结构不同具体来说，在测试阶段为了提高特征的分辨率，将pool3改成一个stride为1的avg pool，随后的三层conv dilation ratio调整为2，以维持相同的感受野。作者解释是说训练时为了减小内存使用比较小的特征分辨率，测试时为了提高特征定位能力，将分辨率提升到原图的1/4，并加上了一个类似SIFT中使用的局部特征提炼，然后将特征插值上采样到原分辨率。不过训练过程不能用上面的hard feature detection，因为其不可微。故作者提出了一个soft的版本，其设计思想就是模仿hard方法的通道选择和空间位置选择（即通道内的局部最大值）：对于空间位置选择，作者会对特征图的每个像素求一个α(i,j)，得到α map(shape为[h,w,d])：其中N(i,j)代表以(i,j)为中心的9-邻域。因此可见这里的局部最大值其实是在3x3区域内的最大值，而不是式(3)中写的那样，整个通道只输出一个最大值。对于通道选择，直接计算一个ratio-to-max得到β图(shape为[h,w,d])：根据kpt的定义，score map s就应该是α map和β map的乘积map在通道维度求最大值的结果。最后再做一个归一化：（问题：这个归一化让score map的像素值之和为1是什么意思？score map不应该用sigmoid之类的转为0-1之间的分布比较合理吗？）关于这部分还要考虑一个问题，为什么D2-Net需要在训练中提取兴趣点？（比如R2D2等结构，都是直接针对kpt score map做优化，只有实际预测时才需要根据score map提取特征点这个步骤）答：这个问题的理解是不正确的，训练中并不是提取兴趣点，而是在得到”single score map"。上面的hard feature detection相当于NMS的过程，输出的是稀疏的兴趣点位置坐标；而训练检测模块需要hxw的score map，故先要把hxwxd的特征图经过一个可微的步骤，处理后得到该score map。 ①triplet margin ranking loss（只考虑描述子）训练描述子其实没有太多不一样的地方，就是根据输入pair的correspondences，将每一个匹配对c视为正对，不匹配对为负对，对构成的三元组进行训练。主要问题是如何根据当前匹配对c构建最有意义的负对。作者这里用了一个基于邻域的困难样本挖掘策略，假如当前匹配为下图的点A和点B，那么分别在I1和I2扣去A\B邻域的区域找负对，并分别与B的描述子dB、A的描述子dA进行比较，找到所有这种负对中相似度最小的，与c构建三元组。以下p(c)和n(c)分别代表正对距离和负对距离。m(c)代表当前匹配c的triplet loss。 ②加入描述子优化的triplet margin ranking loss 由于D2特征即代表兴趣点score map也代表描述子，本文的优化需要对检测和描述进行联合优化。作者在triplet margin ranking loss基础上加入了提升检测结果可重复性这一优化目标，具体实现方法是：利用输入两图像中所有correspondences的检测得分来对当前匹配计算出的triplet loss进行加权平均，如果当前匹配triplet loss很低（即该对匹配的距离远小于其各自的最难负对），则为了最小化loss，这一对triplet loss小（即区分度高）的correspondence自然要给更大的权值；其他triplet loss大的correspondence就给小点的权值。感觉文中式(13)的符号有点confusing，m(p(c),n(c))直接写成,m(c)可能更加简洁。

211 评论 1小时前发布

吃货独依

VGG16网络是在论文《VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION》中提出的。 VGG16网络结构在论文中有图示如下。请看红框部分，从input（224*224RGBimage）到softmax，就是网络的每一层。从中可以看出： 1. 网络的输入是224*224的RGB图片； 2. 网络有13个卷积层（conv3）、5个最大池化层（maxpool）、3个全连接层（FC）、1个softmax层； 3. 13（卷积层）+3（全连接层）= 16，这也就是为什么被称为VGG16； 4. 我们常用的4096维度特征，其实是来自全连接层（FC-4096）； 5. 最后一个全连接层（FC-1000）的作用，是可以进行1000类的分类，在提取特征的任务中，不使用最后一个层。有了上面的介绍，再看网络结构图（如下），是不是就特别顺眼，特别好理解。

247 评论 2小时前发布

好心坏丫头

论文地址：《 Very Deep Convolutional Networks for Large-Scale Image Recognition 》思维导图： LSVRC：大规模图像识别挑战赛 ImageNet Large Scale Visual Recognition Challenge 是李飞飞等人于2010年创办的图像识别挑战赛，自2010起连续举办8年，极大地推动计算机视觉发展。比赛项目涵盖：图像分类(Classification)、目标定位(Object localization)、目标检测(Object detection)、视频目标检测(Object detection from video)、场景分类(Scene classification)、场景解析(Scene parsing)。 VGG Net由牛津大学的视觉几何组（ V isual G eometry G roup）参加2014年ILSVRC提出的网络模型，它主要的贡献是展示了卷积神经网络的深度（depth）是算法优良性能的关键部分。研究了“卷积网络的深度”在大规模的图像识别环境下对准确性的影响（即神经网络的深度与其性能之间的关系）。使用一个非常小的卷积核对网络深度进行评估，评估发现将网络深度加至16层-19层，性能有了显著提升。在ImageNet Challenge 2014竞赛中，定位赛道获得第一名，分类赛道获得第二名。论文提出了多种规模的网络架构（不同规模深度不尽相同），下图为其中性能表现良好的网络架构之一：VGG16结构图。所有卷积操作之后跟有3个全连接层（FC层）：所有的ConvNet配置如图所示，VGG结构全部都采用较小的卷积核（3x3，部分1x1）：两个3×3的卷积层串联相当于1个5×5的卷积层（二者具有等效感受野5x5），3个串联的3×3卷积层串联的效果相当于一个7×7的卷积层；下图展示了为什么“两个3x3卷积层”与“单个5x5卷积层”具有等效的5x5的感受野。 2个3x3卷积层拥有比1个5x5卷积层更多的非线性变换（前者可以使用两次ReLU激活函数，而后者只有一次），使得卷积神经网络对特征的学习能力更强。不影响输入输出的维度情况下（即图片宽高尺寸不变），降低了大量运算，同时改变了维度（通道数）；卷积之后再紧跟ReLU进行非线性处理，提高决策函数的非线性。详见：数据增强，有利于预防过拟合。测试阶段与训练阶段主要有两点不同： VGGNet网络特点：

349 评论 6小时前发布

vgg16论文查重

3个回答 默认排序 默认排序 按时间排序

相关问答

学术论文

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序