三维点云目标检测论文

2个回答默认排序

默认排序

按时间排序

吴山脚下2012

已采纳

本文介绍了一种基于激光雷达数据的激光网络自动驾驶三维目标检测方法——LaserNet。高效的处理结果来自于在传感器的自然距离视图中处理激光雷达数据。在激光雷达视场范围内的操作有许多挑战，不仅包括遮挡和尺度变化，还有基于传感器如何捕获数据来提供全流程信息。

LaserNet通过以下几个步骤实现三维检测：

上图为深层聚合网络架构。列表示不同的分辨率级别，行表示聚合阶段。

上图为特征提取模块(左)和特征聚合模块(右)。虚线表示对特征图进行了卷积。

上图为自适应NMS。在两辆车并排放置的情况下，左边的虚线描述了产生的一组可能的预测。为了确定边界框是否封装了唯一的对象，使用预测的方差(如中间所示)来估计最坏情况下的重叠（如右图所示）。在本例中，由于实际重叠小于估计的最坏情况重叠，因此将保留这两个边界框。

上图为在训练集和验证集上的边界框上的预测分布的校准的图。结果表明，该模型不能学习KITTI上的概率分布，而能够学习较大的ATG4D上的分布。

【实验结果】

上表显示了与其他最先进的方法相比，LaserNet在验证集上的结果。像KITTI基准一样，我们计算了汽车 IoU和自行车及行人0:5 IoU的平均精度(AP)。在这个数据集上，LaserNet在0-70米范围内表现优于现有的最先进的方法。此外，LaserNet在所有距离上都优于LiDAR-only方法，只有在附加图像数据提供最大价值的长距离上，车辆和自行车上的LiDAR-RGB方法优于LaserNet。

对ATG4D数据集进行消融研究，结果如上表所示。

预测概率分布。预测概率分布最大的改进是预测边界框架的分布。当仅预测平均边界框时，公式(6)为简单平均，公式(9)为框角损失。此外，边界框的得分在本例中是类概率。实验结果表明，性能上的损失是由于概率与边界框架的准确性没有很好地相关性导致的。

图像形成： Velodyne 64E激光雷达中的激光器并不是均匀间隔的。通过使用激光id将点映射到行，并在传感器捕获数据时直接处理数据，可以获得性能上的提高。

均值漂移聚类：每个点独立地预测边界框的分布，通过均值漂移聚类将独立的预测组合起来实现降噪。

非极大值抑制：当激光雷达的点稀疏时，有多个边界框的配置可以解释观测到的数据。通过预测各点的多模态分布，进一步提高了该方法的查全率。在生成多模态分布时，使用具有严格阈值的NMS是不合适的。或者，我们可以使用软NMS来重新评估置信度，但是这打破了对置信度的概率解释。通过自适应NMS算法，保持了概率解释，并获得了更好的性能。

对于自动驾驶而言，运行时性能同样重要。上表比较了LaserNet(在NVIDIA 1080Ti GPU上测量)和KITTI上现有方法的运行时的性能。Forward Pass是指运行网络所花费的时间，除Forward Pass外，总时间还包括预处理和后处理。由于在一个小的密集的范围视场内处理，LaserNet比目前最先进的方法快两倍。

使用训练集中的5,985个扫描点训练网络，并保留其余的扫描以进行验证。使用与之前相同的学习时间表对网络进行5万次迭代训练，并在单个GPU上使用12个批处理。为了避免在这个小的训练集上过度拟合，采用数据增强手段随机翻转范围图像，并在水平维度上随机像素移动。在这样一个小的数据集中，学习边界框上的概率分布，特别是多模态分布是非常困难的。因此，训练网络只检测车辆并预测边界框上的单峰概率分布。如上表所示，我们的方法在这个小数据集上的性能比当前最先进的鸟瞰图检测器差。

论文传送门：

【欢迎大家提供行业新闻热点，商业合作请联系：】

165 评论 2小时前发布

美洋洋童装店

在达摩院做3d目标检测，简单调研一下。使用RGB图像、RGB-D深度图像和激光点云，输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为3D目标检测。在无人驾驶、机器人、增强现实的应用场景下，普通2D检测并不能提供感知环境所需要的全部信息，2D检测仅能提供目标物体在二维图片中的位置和对应类别的置信度，但是在真实的三维世界中，物体都是有三维形状的，大部分应用都需要有目标物体的长宽高还有偏转角等信息。例如下图中，在自动驾驶场景下，需要从图像中提供目标物体三维大小及旋转角度等指标，在鸟瞰投影的信息对于后续自动驾驶场景中的路径规划和控制具有至关重要的作用。3DOP这篇文章是当下使用双目相机进行3D bounding-box效果做好的方法，其是Fast RCNN方法在3D领域之内的拓展。由于原论文发表于NIPS15，出于Fast RCNN的效果并没有Faster RCNN和基于回归的方法好，且远远达不到实时性，因此其处理一张图片的时间达到了。它使用一个立体图像对作为输入来估计深度，并通过将图像平面上像素级坐标重新投影回三维空间来计算点云。3DOP将候选区生成的问题定义为Markov随机场(MRF)的能量最小化问题，该问题涉及精心设计的势函数(例如，目标尺寸先验、地平面和点云密度等)。随着获得了一组不同的3D目标的候选框，3DOP利用FastR-CNN[11]方案回归目标位置。论文主要基于FCOS无锚点2D目标检测做的改进，backbone为带有DCN的ResNet101，并配有FPN架构用于检测不同尺度的目标，网络结构如图1所示：基于iou 3d，可以定义出TP和FP 通过绘制精确性×召回率曲线（PRC），曲线下的面积往往表示一个检测器的性能。然而，在实际案例中，"之 "字形的PRC给准确计算其面积带来了挑战。KITTI采用AP@SN公制作为替代方案，直接规避了计算方法。 NuScenes consists of multi-modal data collected from 1000 scenes, including RGB images from 6 cameras, points from 5 Radars, and 1 LiDAR. It is split into 700/150/150 scenes for training/validation/testing. There are overall annotated 3D bounding boxes from 10 categories. In addition, nuScenes uses different metrics, distance-based mAP and NDS, which can help evaluate our method from another perspective.

100 评论 11小时前发布

三维点云目标检测论文

2个回答 默认排序 默认排序 按时间排序

相关问答

职称论文

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序