自动驾驶论文发表

2个回答默认排序

默认排序

按时间排序

Wenlll1020

已采纳

终于拿到长城体系外订单

“我们还在等他们（毫末）的车交付之后，才能做技术上的对标。” 同为量产高阶智驾方案的某车企工程师这样评价毫末。

这一对标将在今年初见分销。

4月11日，在第八届AI DAY上，毫末发布了一个堪比BEV的新技术：自动驾驶生成式大模型DriveGPT——雪湖·海若。

2021年特斯拉用一个BEV架构模型搞定了自动驾驶的感知，而雪湖·海若Transformer则有望用一个模型解决自动驾驶的认知问题。

雪湖·海若将依次搭载在魏牌摩卡DHT-PHEV和蓝山上，首批落地在北京、保定、上海等城市，并于2024年开拓100个城市。

此外，毫末宣布与三家主机厂签订了定点合作协议，其中包括长城体系外的品牌。

新技术范式、百城大战，毫末的“野心”要如何实现？

一次解决所有问题

“（雪湖·海若）使我们在一个统一的生成式框架下，将规划、决策和推理等多个任务全部完成。”毫末智行CEO顾维灏在采访中表示：“（雪湖·海若）在更大数据的支持下，还是会让（自动驾驶系统的决策能力）有一个质的提升。这一新技术范式即使放眼全球也是非常独特和创新的。”

认知架构雪湖·海若和感知架构BEV一样，旨在通过一个大模型一次性解决问题。

在BEV之前，自动驾驶系统的感知是在各传感器端先进行感知，之后由多个小模型算法进行置信判断和融合之后，输出最终的感知结果。BEV则是一次性“吸收”所有传感器的原始数据，之后直接输出车辆周围360°的完整空间感知结果。

决策方面，目前业内主要包括预测、规划、控制几个环节：

基于感知结果，通过搜索等方法划定出可行使空间，再在其中根据自车和其它交通参与者可能的行动轨迹进行路线规划，最终决定出一条行驶路线，并将行驶路线分解为车辆动作命令传给执行器。

雪湖·海若则是基于感知结果，直接给出规划控制结果和理由：

一次性生成多个未来可能发生的全局场景，并且按照可能发生的概率排序；生成自车未来的轨迹信息；直接给出决策逻辑链。

例如在一个包含对向来车、左侧电动车、右侧过路行人的无保护左转的场景中：

传统方法是先对与自车最有可能交互的对向来车进行轨迹预测，基于预测结果判断自车应该的行驶轨迹。此轨迹如果涉及到电动车/行人等其它的交通参与者，则加入考虑后预测，再判断轨迹，如此往复。

但雪湖·海若是一次性看到路面的全局情况，基于预训练积累的“经验”，直接得出：对向来车已出线刹车概率低、电动车虽然未出线但惯于抢行、行人在路口通常谨慎行动变。如以安全为先，应当缓慢起步，让行电动车后，快速通过路口。

之所以出现这样不同的“思考”方式，在于传统方法和雪湖·海若在短期数据和长期知识上存在不同。

短期数据即当时当刻的路面情况。

由于目前决策大都使用参数有限的小模型，因此一次性能考虑的对象便相对有限。

雪湖·海若作为大模型，在云端参数高达1200亿个，由此在学习时能够做到全局思考。目前毫末未透露部署到车端时的参数规模。

长期知识则是交通规则和常识性的潜规则。

目前主流决策层算法仍以逻辑判断为主，对于“谁会如何”更多还是出自工程师经验。

雪湖·海若则是先在4000万量产车驾驶数据中进行学习，又用5万个经过筛选的人类接管数据做反馈训练，最终习得开车的知识和常识，能够更加类人的，根据当前交通情况推理出未来各类交通场景以及出现的概率。

对于神经网络作为黑盒，思考过程的不可解释化，毫末技术负责人艾锐向《赛博汽车》表示，通过添加限定规则，可以一定程度上解决这一问题。

在决策层引入GPT模型只是开始，未来毫末计划将雪湖·海若扩大为端到端的自动驾驶系统模型，即用一个大模型解决感知、认知的所有问题。

中国自动驾驶逻辑芯片企业地平线也持类似的观点。前不久，地平线作为第一作者发布了基于Transformer的自动驾驶端到端算法框架论文，首次将检测、跟踪、预测、箭头轨迹预测等多个模块用一个完整神经网络架构完整解决。

“让我们有可能像ChatGPT那样，用端到端的大规模的数据去训练整个的自动驾驶系统。”地平线创始人&CEO余凯在演讲中表示。

万事俱备，只待上车

一次解决所有问题，当然很棒，但却鲜少有玩家实践该技术。

在2022年的AI DAY和今年的投资者日上，特斯拉展示的预测算法仍是以蒙特卡洛树搜索为主。

小鹏汽车自动驾驶副总裁吴新宙则在4月明确表示，未来小鹏将在预测层面引入神经网络，但在规控层面，仍将以逻辑算法为主。“我对团队有一个明确的线，能用数学方法解决的问题，都先用数学的方法。”

事实上，即使想要应用，GPT也不是普通玩家玩得起的。

华为云人工智能领域首席科学家田奇在近日的演讲中表示，大模型开发和训练一次需要1200万美元。而且并不只是“钱”的事。

首先，雪湖·海若作为GPT（Generative Pre-trained Transformer）生成式预训练大模型，需要有大规模语料库来进行训练。

顾维灏在演讲中表示，雪湖·海若的一个关键设计是将场景Token（令牌，代表执行某些操作的权利对象）化表达：将驾驶空间进行离散化处理，每一个Token都表征场景的一小部分。如果输入一连串过去已经发生的场景Token序列，模型可生成未来所有可能的场景。目前毫末Token的词表空间是50万个左右。

大模型还需要超算中心来训练。

1月，毫末发布了670PFLOPS算力的超算中心——雪湖·绿洲。若按照一块19.5TFLOPS算力的英伟达A100计算，则绿洲或用了34.3万块英伟达A100。

绿洲还针对海若进行了针对性的升级改造。

一是建立全套训练保障框架，避免因个别服务器异常可能导致的训练中端；二是升级弹性调度资源的能力，使训练平台能够自适应每天回传数据不同的大小规模；三是吞吐效率的升级，通过算子融合端到端吞吐提升84%。

但就像ChatGPT和GPT4仍依赖于对话者不断调整问题问法，扩大数据库调用权限，才能表现得更加真实类人一样。

雪湖·海若要做到真正高速类人，在并行效率、算力需求、功耗等方面超过搜索等传统方法，甚至超过人类表现的前提，是源源不断的真实道路场景和人类反馈。

毫末的身份突围

2022年底，小鹏、华为、毫末三家抢跑城市领航功能落地。

从结果来看，小鹏、华为都已有了搭载城市领航功能的车队上路，毫末HPilot 3.0所搭载的新摩卡DHT-PHEV预计将于本月推出，而魏牌蓝山要到三季度才会推出激光雷达版。

与此同时，后来者也正逐步逼近，蔚来、理想等车企，和轻舟智航等智能驾驶供应商都已宣布了2024年落地高速、城市领航功能的计划。

之所以形成这样的局面，与毫末的身份不无关系。

毫末虽然出身长城，却无法像蔚小理的智驾团队一样，拥有自上而下的话语权，更多还是相对独立的供应商身份。

但背靠长城又使毫末的供应商身份不那么纯粹。对于出自ICT行业的华为，车企都尚且顾忌灵魂。出自同行的毫末作为供应商，自然也少不了被挑剔。

如何实现身份突围？

今年年初，毫末推出了包括全栈解决方案、云端服务、硬件、软件、模块、原型代码六个层面的6P开放合作模式。合作伙伴不仅可以获取毫末的功能产品，甚至可以获得原型代码这样的底层技术能力。

“您的灵魂您保留，我的灵魂您带走。” 毫末智行COO侯军表示：“（智能/自动驾驶）全栈自研是高成本、长周期的事情。毫末的6P开放模式帮助主机厂在不具备技术和时间的情况下参与竞争。

如果之后毫末的综合性价比能力赶不上合作伙伴进步的灵魂，我们被淘汰也是正常的。如果能赶上，我们愿意与合作伙伴长期携手同行。”

这样“白盒”开放的态度已经起到了效果，毫末已与三家主机厂签署定点合同，其中包括长城体系外的品牌。

在毫末的生态伙伴当中，除了高通这样的老朋友外，还多了英伟达、华为、地平线这样新朋友，未来合作方向值得玩味。

此外，毫末在2024年的百城计划也绝非说说而已。

目前，华为、小鹏的城市领航功能在核心区域仍需依靠高精地图。而毫末的方案则完全不采用高精地图，只用类似导航地图的标清地图，以感知信息的置信权重远高于地图信息，即所谓重感知轻地图方案。

要完全依靠感知信息做判断使毫末目前的城市领航功能更显保守，安全性要求远高于舒适和通行效率。

但由于完全不依赖高精地图，所以毫末HPilot 3.0的开城将不受地图资源限制，随着其感知能力打磨得愈发完善，开城速度也将愈发加速。

顾维灏在演讲中表示，毫末的视觉自监督大模型感知性能已提升20%。例如鱼眼摄像头在15米范围内的测量精度已达到30厘米，2米内精度可以高于10厘米。因此毫末正考虑取消超声波雷达，直接使用鱼眼镜头做泊车功能。

技术进步也正成为毫末作为供应商，持续降本的底气所在。毫末智行张凯表示：“未来（降本同效的策略）对我们和行业发展，都会有很好的推动作用。”

【本文来自易车号作者赛博汽车，版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点，与易车无关】

203 评论 1小时前发布

奈奈fighting

在达摩院做3d目标检测，简单调研一下。使用RGB图像、RGB-D深度图像和激光点云，输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为3D目标检测。在无人驾驶、机器人、增强现实的应用场景下，普通2D检测并不能提供感知环境所需要的全部信息，2D检测仅能提供目标物体在二维图片中的位置和对应类别的置信度，但是在真实的三维世界中，物体都是有三维形状的，大部分应用都需要有目标物体的长宽高还有偏转角等信息。例如下图Fig.1中，在自动驾驶场景下，需要从图像中提供目标物体三维大小及旋转角度等指标，在鸟瞰投影的信息对于后续自动驾驶场景中的路径规划和控制具有至关重要的作用。3DOP这篇文章是当下使用双目相机进行3D bounding-box效果做好的方法，其是Fast RCNN方法在3D领域之内的拓展。由于原论文发表于NIPS15，出于Fast RCNN的效果并没有Faster RCNN和基于回归的方法好，且远远达不到实时性，因此其处理一张图片的时间达到了4.0s。它使用一个立体图像对作为输入来估计深度，并通过将图像平面上像素级坐标重新投影回三维空间来计算点云。3DOP将候选区生成的问题定义为Markov随机场(MRF)的能量最小化问题，该问题涉及精心设计的势函数(例如，目标尺寸先验、地平面和点云密度等)。随着获得了一组不同的3D目标的候选框，3DOP利用FastR-CNN[11]方案回归目标位置。论文主要基于FCOS无锚点2D目标检测做的改进，backbone为带有DCN的ResNet101，并配有FPN架构用于检测不同尺度的目标，网络结构如图1所示：基于iou 3d，可以定义出TP和FP 通过绘制精确性×召回率曲线（PRC），曲线下的面积往往表示一个检测器的性能。然而，在实际案例中，"之 "字形的PRC给准确计算其面积带来了挑战。KITTI采用AP@SN公制作为替代方案，直接规避了计算方法。 NuScenes consists of multi-modal data collected from 1000 scenes, including RGB images from 6 cameras, points from 5 Radars, and 1 LiDAR. It is split into 700/150/150 scenes for training/validation/testing. There are overall 1.4M annotated 3D bounding boxes from 10 categories. In addition, nuScenes uses different metrics, distance-based mAP and NDS, which can help evaluate our method from another perspective.

218 评论 2小时前发布

自动驾驶论文发表

2个回答 默认排序 默认排序 按时间排序

相关问答

论文发表

向你推荐

热门问题

2个回答默认排序

默认排序

按时间排序