三维点云特征提取毕业论文

3个回答默认排序

默认排序

按时间排序

政哥哥哥哥哥哥

已采纳

论文地址：前置文章：10/16、10/17、10/18

本文提出了Point Fractal Network(PF-Net),旨在从不完整的点云数据中恢复点云，克服了之前方法修改现有数据点、引入噪声和产生几何损失的缺点。

由前置文章可知，之前的点云修复方法是输入不完整的点云，输出完整的点云，但这样会导致原有信息的缺失。这篇文章提出PF-Net，主要特点有三个：

网络的整体结构如下：

网络详细推理步骤如下：

损失函数使用完整性损失和对抗损失的加权平均，完整性损失使用L-GAN中提出的CD距离：

对抗损失使用GAN中常见的损失函数

感觉这篇文章对多尺度的运用非常极致，在编码器、解码器和CMLP中都应用了这种思想，最后的效果也非常不错，很值得借鉴。

论文地址：

PointNet提出一种基础的网络结构，可以用于点云分类、部分分割和语义分割等多种任务。在这篇文章之前，点云数据的处理方式是将点云数据转换为多个二维的视图或三维的体素形式，然后应用2D/3D CNN进行处理，但这样引入了多余的体积，效率不高。本文是第一个直接使用点云数据的神经网络。（其实可以这样类比，在二维图像处理中，假设图像是二值化的，传统方法是将这个图像直接丢到CNN里面，但如果背景特别多会比较浪费资源。直接使用点云数据相当于直接将前景像素的坐标输入到神经网络里面，对稀疏数据会有比较好的性能，但因为以下三个问题导致直接使用坐标信息比较困难）由于点云的排列是无序的（可以想象，点云中任意一点排在前面对点云的表达都是相同的）、点云之间是有相互作用的（相邻的点云才能构成形状）、点云在某些变换下具有不变性（比如旋转不会改变点云的类别）这些特性，要求神经网络既能处理无序的数据，又能捕捉全局的结构特征，同时对刚性变换不敏感。基于这些条件，作者提出了如下的网络结构：

可以简要分析一下网络的工作流程，以点云分类问题为例：

感觉网络的结构虽然简单，但是却很好地满足了点云数据自身特性对神经网络的要求。而且我觉得在图像处理中，也有时候必须用到坐标信息或者一些标量特征，这篇文章的方法对于怎样将这些特征融合进CNN里面也有一定的启发意义。

论文地址：

这篇文章的主要工作是：

首先来看衡量两个点云相似程度的指标部分，作者首先给出了两个距离，EMD和CD：

在计算上，CD更为简便，而且EMD是不可导的。

基于这两种距离，作者引入了三种衡量两个点云相似程度的指标：JSD、Coverage和MMD：

定义了指标后，就可以实现自动编码器和生成模型了。作者提到了四种结构，分别是：

作者同时验证了AE的一些其他功能，比如如果给AE的编码器输入不完整的点云数据，即可训练得到点云复原的模型。使用SVM对低维表示进行分类，即可进行点云分类的任务，证明AE在点云数据形式中的潜在应用较为广泛。

论文地址：

PointNet++针对PointNet提取局部信息能力不强的弊端，提出了一种层次神经网络，可以更好地提取局部信息。其中心思想是将整个点云分割成若干个小部分来提取信息，然后将每个小部分整合成较大的部分，提取更高层次的信息。类似于CNN中卷积和下采样的思想。首先来看网络结构图：

网络大概可以分为两个部分，左边是层次的点云特征提取网络，右边是针对不同任务的解码网络。特征提取分为若干个set abstraction模块，每个模块又分为采样层、分组层和特征提取层。

得到了较高层次的特征后，对不同的任务需要不同的解码网络。对分类网络来说比较简单，使用全连接即可。对分割网络来说，由于对每个点都需要输出数值，则需要类似上采样的操作。具体的实现作者使用了插值的方法，将较少的点插值到较多的点上去。首先找到插值的目标坐标，然后寻找K个距离最近的已知点，以距离的倒数作为权重，将K个点的特征做加权平均，作为这个点的特征。然后使用之前特征提取中得到的该点的特征与当前特征做一个拼接，即可得到最终特征（类似U-Net的skip connection）。公式如下：

感觉这篇文章和PF-Net的思想差不多，都是希望提取多尺度的特征。但是思路不一样，都值得借鉴。

338 评论 2小时前发布

安静的芋米

机械手动作是靠伺服电机上的编码器反馈到工控机处理中心讯号与预设定引数比较、修正再输出给伺服电机执行精确定位的。也就是说靠预先程式设计决定的，不是靠感测器定位的。程式设计可解决机械手三维空间动作精确方向、速度、执行时间…………

依靠定位点以及零点位置，机器手定期修正累加误差，抓取最高阶的是应用影象技术，配合物料定位点。

一般是照相定位的。感测器是COMS或者CCD。

用预先程式设计及其执行中该伺服电机轴尾的编码器反馈讯号至计算中心精确修整偏差定位的。

机器人家上了解到，机器人领域的视觉（Machine Vision）跟计算机领域（Computer Vision）的视觉有一些不同：机器视觉的目的是给机器人提供操作物体的资讯。所以，机器视觉的研究大概有这几块：物体识别（Object Recognition）：在影象中检测到物体型别等，这跟 CV 的研究有很大一部分交叉；位姿估计（Pose Estimation）：计算出物体在摄像机座标系下的位置和姿态，对于机器人而言，需要抓取东西，不仅要知道这是什么，也需要知道它具体在哪里；相机标定（Camera Calibration）：因为上面做的只是计算了物体在相机座标系下的座标，我们还需要确定相机跟机器人的相对位置和姿态，这样才可以将物 *** 姿转换到机器人位姿。当然，我这里主要是在物体抓取领域的机器视觉；SLAM 等其他领域的就先不讲了。由于视觉是机器人感知的一块很重要内容，所以研究也非常多了，我就我了解的一些，按照由简入繁的顺序介绍吧： 0. 相机标定这其实属于比较成熟的领域。由于我们所有物体识别都只是计算物体在相机座标系下的位姿，但是，机器人操作物体需要知道物体在机器人座标系下的位姿。所以，我们先需要对相机的位姿进行标定。内参标定就不说了，参照张正友的论文，或者各种标定工具箱；外参标定的话，根据相机安装位置，有两种方式： Eye to Hand：相机与机器人极座标系固连，不随机械臂运动而运动 Eye in Hand：相机固连在机械臂上，随机械臂运动而运动两种方式的求解思路都类似，首先是眼在手外（Eye to Hand）只需在机械臂末端固定一个棋盘格，在相机视野内运动几个姿态。由于相机可以计算出棋盘格相对于相机座标系的位姿、机器人运动学正解可以计算出机器人底座到末端抓手之间的位姿变化、而末端爪手与棋盘格的位姿相对固定不变。这样，我们就可以得到一个座标系环而对于眼在手上（Eye in Hand）的情况，也类似，在地上随便放一个棋盘格（与机器人基座固连），然后让机械臂带着相机走几个位姿，然后也可以形成一个的座标环。 1. 平面物体检测这是目前工业流水线上最常见的场景。目前来看，这一领域对视觉的要求是：快速、精确、稳定。所以，一般是采用最简单的边缘提取+边缘匹配/形状匹配的方法；而且，为了提高稳定性、一般会通过主要打光源、采用反差大的背景等手段，减少系统变数。目前，很多智慧相机（如 cognex）都直接内嵌了这些功能；而且，物体一般都是放置在一个平面上，相机只需计算物体的三自由度位姿即可。另外，这种应用场景一般都是用于处理一种特定工件，相当于只有位姿估计，而没有物体识别。当然，工业上追求稳定性无可厚非，但是随着生产自动化的要求越来越高，以及服务类机器人的兴起。对更复杂物体的完整位姿估计也就成了机器视觉的研究热点。 2. 有纹理的物体机器人视觉领域是最早开始研究有纹理的物体的，如饮料瓶、零食盒等表面带有丰富纹理的都属于这一类。当然，这些物体也还是可以用类似边缘提取+模板匹配的方法。但是，实际机器人操作过程中，环境会更加复杂：光照条件不确定（光照）、物体距离相机距离不确定（尺度）、相机看物体的角度不确定（旋转、仿射）、甚至是被其他物体遮挡（遮挡）。幸好有一位叫做 Lowe 的大神，提出了一个叫做 SIFT （Scale-invariant feature transform）的超强区域性特征点： Lowe, David G. "Distinctive image features from scale-invariant keypoints."International journal of puter vision (2004): 91-110. 具体原理可以看上面这篇被引用 4万+ 的论文或各种部落格，简单地说，这个方法提取的特征点只跟物体表面的某部分纹理有关，与光照变化、尺度变化、仿射变换、整个物体无关。因此，利用 SIFT 特征点，可以直接在相机影象中寻找到与资料库中相同的特征点，这样，就可以确定相机中的物体是什么东西（物体识别）。对于不会变形的物体，特征点在物体座标系下的位置是固定的。所以，我们在获取若干点对之后，就可以直接求解出相机中物体与资料库中物体之间的单应性矩阵。如果我们用深度相机（如Kinect）或者双目视觉方法，确定出每个特征点的 3D 位置。那么，直接求解这个 PnP 问题，就可以计算出物体在当前相机座标系下的位姿。 ↑ 这里就放一个实验室之前毕业师兄的成果当然，实际操作过程中还是有很多细节工作才可以让它真正可用的，如：先利用点云分割和欧氏距离去除背景的影响、选用特征比较稳定的物体（有时候 SIFT 也会变化）、利用贝叶斯方法加速匹配等。而且，除了 SIFT 之外，后来又出了一大堆类似的特征点，如 SURF、ORB 等。 3. 无纹理的物体好了，有问题的物体容易解决，那么生活中或者工业里还有很多物体是没有纹理的：我们最容易想到的就是：是否有一种特征点，可以描述物体形状，同时具有跟 SIFT 相似的不变性？不幸的是，据我了解，目前没有这种特征点。所以，之前一大类方法还是采用基于模板匹配的办法，但是，对匹配的特征进行了专门选择（不只是边缘等简单特征）。简单而言，这篇论文同时利用了彩色影象的影象梯度和深度影象的表面法向作为特征，与资料库中的模板进行匹配。由于资料库中的模板是从一个物体的多个视角拍摄后生成的，所以这样匹配得到的物 *** 姿只能算是初步估计，并不精确。但是，只要有了这个初步估计的物 *** 姿，我们就可以直接采用 ICP 演算法（Iterative closest point）匹配物体模型与 3D 点云，从而得到物体在相机座标系下的精确位姿。当然，这个演算法在具体实施过程中还是有很多细节的：如何建立模板、颜色梯度的表示等。另外，这种方法无法应对物体被遮挡的情况。（当然，通过降低匹配阈值，可以应对部分遮挡，但是会造成误识别）。针对部分遮挡的情况，我们实验室的张博士去年对 LineMod 进行了改进，但由于论文尚未发表，所以就先不过多涉及了。 4. 深度学习由于深度学习在计算机视觉领域得到了非常好的效果，我们做机器人的自然也会尝试把 DL 用到机器人的物体识别中。首先，对于物体识别，这个就可以照搬 DL 的研究成果了，各种 CNN 拿过来用就好了。有没有将深度学习融入机器人领域的尝试？有哪些难点？ - 知乎这个回答中，我提到 2016 年的『亚马逊抓取大赛』中，很多队伍都采用了 DL 作为物体识别演算法。然而，在这个比赛中，虽然很多人采用 DL 进行物体识别，但在物 *** 姿估计方面都还是使用比较简单、或者传统的演算法。似乎并未广泛采用 DL。如 @周博磊所说，一般是采用 semantic segmentation neork 在彩色影象上进行物体分割，之后，将分割出的部分点云与物体 3D 模型进行 ICP 匹配。当然，直接用神经网路做位姿估计的工作也是有的它的方法大概是这样：对于一个物体，取很多小块 RGB-D 资料（只关心一个patch，用区域性特征可以应对遮挡）；每小块有一个座标（相对于物体座标系）；然后，首先用一个自编码器对资料进行降维；之后，用将降维后的特征用于训练Hough Forest。 5. 与任务/运动规划结合这部分也是比较有意思的研究内容，由于机器视觉的目的是给机器人操作物体提供资讯，所以，并不限于相机中的物体识别与定位，往往需要跟机器人的其他模组相结合。我们让机器人从冰箱中拿一瓶『雪碧』，但是这个『雪碧』被『美年达』挡住了。我们人类的做法是这样的：先把『美年达』移开，再去取『雪碧』。所以，对于机器人来说，它需要先通过视觉确定雪碧在『美年达』后面，同时，还需要确定『美年达』这个东西是可以移开的，而不是冰箱门之类固定不可拿开的物体。当然，将视觉跟机器人结合后，会引出其他很多好玩的新东西。由于不是我自己的研究方向，所以也就不再班门弄斧了。

机器作定位由先由工程式设计决定空前、左右、位置定位精度由伺服电机同轴尾端编码传器反馈讯号经伺服电机驱卡至处理处理再输作自微量调整

机器人多工位动作及其执行中定位全部由人工编写操作程式而决定的，此与感测器暂不搭界。若要根据生产工艺改进，则要重新编写程式，或在原程式中作修改调整。

机器人抓取定位是预先程式设计的，工控机输出带动伺服电机精确定位，包括伺服电机编码器反馈讯号经电机驱动卡直至工控机进一步调整。若用感测器检测定位误差极大，根本不可能细微修正定位精度。

机器人抓取目前最常用的是通过视觉定位，CCD/CMOS感测器拍摄当前视野内图片，找到MARK点，算出偏移的座标和角度，再通过网口或者串列埠将资料反馈到机器人，机器人作出相应修正 ----------众合航迅科技有限公司邓经理为您解答

机器人动作定位由先由人工程式设计决定它在空中前后、左右、上下位置的。定位精度由伺服电机同轴尾端编码感测器反馈讯号经此伺服电机驱动卡至处理中心处理后再输出作自动微小量调整

182 评论 9小时前发布

en20120705

机器人抓取时的定位可以使用多种感测器，常见的有以下几种：

179 评论 9小时前发布

三维点云特征提取毕业论文

3个回答 默认排序 默认排序 按时间排序

相关问答

学术期刊

向你推荐

热门问题

3个回答默认排序

默认排序

按时间排序