关键点检测论文

3个回答默认排序

默认排序

按时间排序

小坦克秋

已采纳

本文主要用于介绍Kaiming He, rbg等大神于2017年提出的Mask R-CNN网络，该网络架构是在其前作Fast R-CNN上的升级改进版可以用于实例分割。本笔记主要为自我温习回顾，以备后用。

论文链接： github主页： rbg大神个人主页：恺明大神的演讲视频：

为更好的理解该论文，建议先行阅读Faster R-CNN网络的相关论文，这里也附上本菇之前写的1篇论文笔记供大家参考～ Faster R-CNN理解

基本目录如下：

------------------第一菇 - 摘要------------------

我们从概念上提出了一种简单，易变和通用的框架用于目标实例分割。我们的方法能够高效的在一张图片中检测出物体同时对于该物体生成高质量的分割蒙版（segmentation mask），我们称此方法为，“Mask R-CNN”，其本质也是由Faster R-CNN衍化而来的，就是在Faster R-CNN后面多加了一个分支用于预测目标的蒙版，跟预测目标的识别和位置的分支是平行的。Mask R-CNN也易于去训练，仅仅只比Faster R-CNN慢一点，运行效率达到5fps。另外，Mask R-CNN也能够十分简单的被转移去训练其他的任务，比如去预测人体的姿态关键点。我们在COCO数据集上运用该模型训练了多个任务，包括实例分割，目标框预测和人体关键点检测，均取得不错的成绩。我们希望Mask R-CNN能够成为业界新的标杆，并能被广泛运用于新领域的研究。

------------------第二菇 - 核心思想------------------

整体架构十分容易理解，就是在RPN之后新添了一个分支用于预测mask的。网上其他的讲解资料也很多，这里我只记录一下Mask R-CNN中的重点，RoIAlign。不过我们还是先来温习一下，什么是RoIPool的实现原理。

为了搞明白原理，我们先问一个问题，为什么需要RoIPool？原因就是经过RPN生成的候选区域大小不一样，无法直接连接全连接层进行后续的分类及定位处理，因此需要RoIPool层将其转为固定维度大小的特征。当然这是很明确的一个原因，不过还有一个潜在的原因可以理解为特征的二次提取。因为在RPN中，特征只被共享卷积层提取过一次，而为了提升后续的定位及分类准确率，对于每一个候选区域进一步提取特征也是符合逻辑的，贴一张示意图，方便理解，

原理很简单，我们再来看具体的细节处理，会产生的像素偏差。

第一个就是从输入图上的RoI到特征图上的RoI Feature，

假如现在我们输入了一张的图像，图像中有2个目标（狗和猫），其中狗的识别框为，经过VGG16网络后，图像得到对应的feature map为（5次池化操作），而对应的狗的识别框就变为了，因此这里就会有一个误差，于是这里就有了第一个量化操作，即取整，使其结果变为，如下所示（右图中未能重叠的部分就是误差了～）

第二个误差就是将每个特征转化为固定大小维度的时候所产生的。比如现在要将的特征映射到上，对应的大小就是了，因此同上这里又会有一个误差，于是就有了第二个量化操作，也是取整。即原先由大小生成的值，现在只由的大小生成了～虽然看起来这是一个很小很小的误差，但是要知道，这时候我们的感受野已经是32倍了，相当于原图的像素差了～

这里也贴一张网上流行的RoIPool的示意图，帮助理解，

因此以上两种取整的量化操作，对于分类问题来说可能影响不大，但是对于实例分割这种像素级别的，细微的像素误差可能就会导致最终结果的崩坏。因此，本文才会提出了RoIAlign，其主要目的就是为了消除这种误差的。

简单来讲，RoIAlign的作用就是用双线性插值的办法取代了之前的取整操作，从而使得每个RoI取得的特征能更好的对齐原图上的RoI区域。具体来讲，双线性插值是一种比较理想的图像缩放算法，他通过拟合一个虚拟的点（该点的值由其周围4个确定点的像素值决定），从而将那些浮点数的点的值给表达出来，如下图所示，

作者同时也强调了一件事情，即，

We note that the results are not sensitive to the exact sampling locations, or how many points are sampled, as long as no quantization is performed.

也就是说该方法对采样点的个数和位置并不是十分敏感在意的～而且采用了这种方法以后，准确率有了很大的提升～！

至此，整一个新的RoIAlign层的作用及原理算是讲明白了。

剩下的网络架构类的，实现细节等不再多记录了。

------------------第三菇 - 总结------------------

本文主要是记录了Mask R-CNN中的一个创新难点，ROIAlign的作用及实现方法，其他有关Mask R-CNN的相信不难理解。

参考文献：【1】

83 评论 1小时前发布

奈奈fighting

现在大部分的高校都在用知网查重，高等院校及科研单位都是以知网系统查重结果为准，如果我们自己写论文时很多内容都是一句一句写出来的，那么原创程度通常都是比较高的，就比较容易通过学校的审查。我们是可以使用学校的知网查重系统来查重自己毕业论文的，因为学校一般会提供给我们这些毕业生免费的知网查重次数，当然机会有限，通常仅限一次。如果我们的毕业论文中有大量复制粘贴的内容，那想要顺利通过学校的查重审核就很悬了。如果这时直接使用完学校提供的免费知网查重次数，检测出自己论文中有较高的重复率，就还是需要对论文进行修改降重，相当于浪费了这次免费知网查重次数。因此为了更加保险更加稳妥的通过论文查重，我们最好是使用其他比较划算的论文查重系统提前检测自己的毕业论文，这样能够比较明确的知道自己毕业论文的重复率，也能更方便的修改毕业论文，而且后续可以更加有效的运用学校提供的知网免费查重次数。提前自己进行论文查重可以使用PaperPP免费论文查重网站，参与网站活动即可获得相对应的免费查重字数，上传论文检测时使用免费字数即可抵扣查重费用。修改降重论文之后再使用学校的知网查重系统检测自己论文定稿，进行最后的改动。

244 评论 11小时前发布

喜欢运动的男孩

什么是人体骨骼关键点检测？

应用

挑战

人体骨骼关键点检测方法主要分两周：自上而下和自下而上。

coordinate ：坐标直接将关键点坐标作为最后网络需要回归的目标，这样可以得到每个坐标点的直接位置信息

heatmap ：热图每一类坐标用一个概率图来表示，对图片中的每个像素位置都给一个概率，表示该点属于对应类别关键点的概率。距离关键点位置越近的像素点的概率越接近于1，距离关键点越远的像素点的概率越接近于0。具体的一般使用高斯函数来模拟。

offset ：偏移量表示距离目标关键点一定范围内的像素位置与目标关键点之间的关系。

Convolutional Pose Machines ：本论文将深度学习应用于人体姿态分析，同时用卷积图层表达纹理信息和空间信息。主要网络结构分为多个stage，其中第一个stage会产生初步的关键点的检测效果，接下来的几个stage均以前一个stage的预测输出和从原图提取的特征作为输入，进一步提高关键点的检测效果。具体的流程图如下图（摘自论文[1]）所示。

Cascaded Pyramid Network for Multi-Person Pose Estimation ：本论文将深度学习应用于人体姿态分析，同时用卷积图层表达纹理信息和空间信息。主要网络结构分为多个stage，其中第一个stage会产生初步的关键点的检测效果，接下来的几个stage均以前一个stage的预测输出和从原图提取的特征作为输入，进一步提高关键点的检测效果。具体的流程图如下图（摘自论文[2]）所示。

RMPE ：本论文主要考虑的是自上而下的关键点检测算法在目标检测产生Proposals的过程中，可能会出现检测框定位误差、对同一个物体重复检测等问题。检测框定位误差，会出现裁剪出来的区域没有包含整个人活着目标人体在框内的比例较小，造成接下来的单人人体骨骼关键点检测错误；对同一个物体重复检测，虽然目标人体是一样的，但是由于裁剪区域的差异可能会造成对同一个人会生成不同的关键点定位结果。本文提出了一种方法来解决目标检测产生的Proposals所存在的问题，即通过空间变换网络将同一个人体的产生的不同裁剪区域（Proposals）都变换到一个较好的结果，如人体在裁剪区域的正中央，这样就不会产生对于一个人体的产生的不同Proposals有不同关键点检测效果。具体Pipeline如下图（摘自论文[14]）所示。

Part Segmentation ：即对人体进行不同部位分割，而关键点都落在分割区域的特定位置，通过部位分割对关键点之间的关系进行建模，既可以显式的提供人体关键点的空间先验知识，指导网络的学习，同时在最后对不同人体关键点进行聚类时也能起到相应的连接关键点的作用。如下图（论文[4]）所示。

Part Affinity Fields ：

网络分为两路结构，一路是上面的卷积层，用来获得置信图；一路是下面的卷积层，用来获得PAFs。网络分为多个stage，每一个stage结束的时候都有中继监督。每一个stage结束之后，S以及L都和stage1中的F合并。上下两路的loss都是计算预测和理想值之间的L2 loss。

personlab是一个自下而上的人体检测和姿态估计算法。包括两个步骤：

关键点检测阶段的目标是检测属于图像（可能不止一个人）中任何人体的关键点。该阶段生成一个热图和一个偏移量：

假设是图像中二维位置中的一个，其中是图像的位置索引，是像素点的个数。

使用Hough投票集合热图和偏移量，聚合成hough分数映射，其中为图像的每个位置，为双线性插值核。

的局部最大值作为关键点的候选位置点，但是没有与个体相关的信息，当图像中有多个个体存在时，我们需要一个机制将关键点聚合在其对应的个体上。 Mid-range pairwise offsets 为了达到以上目的，在网络上加入一个分离的成对中射程2-D偏移域输出用来连接成对的关键点。训练集中，表示对于同一个个体从第个关键点到第个关键点。

对于具有大量个体的情况，很难准确的回归，使用更准确的短射程偏移来递归的修正：

[1] Convolutional Pose Machines [2] Cascaded Pyramid Network for Multi-Person Pose Estimation [3] RMPE: Regional Multi-Person Pose Estimation

265 评论 12小时前发布

关键点检测论文

3个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序