FSD V9大规模推送毫米波、激光雷达统统不要特斯拉坚持纯视觉的底气何在?
日期:2024-06-05 05:15:43   来源:常见问题

  有人相信单纯的摄像头与计算机视觉就能解决战斗,但也有的人觉得计算机视觉和先进传感器缺一不可。

  在今年的 CVPR(计算视觉与模式识别大会)上,特斯拉首席 AI 科学家 Andrej Karpathy 道出了特斯拉如此「执拗」的原因。

  在这次的 CVPR 上,Karpathy 还详细的介绍了特斯拉是如何基于深度学习开发无人驾驶系统。

  除此之外,他还解释了为什么特斯拉基于视觉就能让无人驾驶梦想成线 日,特斯拉开始在美国地区正式推送纯视觉版的 FSD Beta V9 版本。

  有海外车主在夜晚体验了这一版本,还有车主在雾蒙蒙的街道上自由顺畅穿行。总体而言,车辆的表现较之前拥有更平滑的加速和减速,转弯时也显得更为自信。

  先是声称不用激光雷达,而后又宣布在量产车上移除毫米波雷达,特斯拉坚持纯视觉无人驾驶的底气来自哪里?

  神经网络会分析车载摄像头采集到的数据,了解道路、标牌、车辆、障碍以及行人的状况。

  不过,深度学习并非万无一失,在检测图像中的物体时,这项技术也会犯错。这也是大多数无人驾驶公司,包括领头羊 Waymo 在内,选择用激光雷达来搭建三维地图的原因。

  遗憾的是,用户说走就走的愿望并没那么容易实现,为无人驾驶汽车打造无处不在的高精地图非常困难。

  「只要规模一大,采集、搭建和维护这些高精地图就变成了不可能完成的任务,」Karpathy 说道。「更别说高精地图的实时更新了。」

  Karpathy 指出,「所有发生的事情都会被车上的 8 颗摄像头记录下来。」

  Karpathy 强调,基于视觉的无人驾驶,在技术角度更难实现,因为它要求神经网络仅仅基于视频输入就能达到超强性能的输出。「不过,一旦取得了突破,就能获得通用视觉系统,方便部署在地球的任何地方。」

  Karpathy 认为,特斯拉正在朝这个方向努力。在此之前,特斯拉无人驾驶依靠的是毫米波雷达与摄像头双重冗余,而现在的新车则直接砍掉了毫米波雷达。

  在他看来,特斯拉的深度学习系统已经比毫米波雷达强一百倍,现在的毫米波雷达慢慢的开始拖后腿了。

  「人类驾驶依靠的是视觉,所以我们的神经网络是能处理视觉输入,并以此理解周边物体深度与速度的。」Karpathy 解释道。「不过最严重的问题在于,合成的神经网络能否做到这一点。我认为,通过过去几个月的工作,特斯拉内部已经达成明确共识,我们训练出的神经网络能担此大任。」

  特斯拉工程师想打造的深度学习系统,除了要处理深度、速度和加速度信息,还要一起进行目标探测。

  在他们看来,这是监督学习的问题,即神经网络在对标记数据来进行训练后,学习目标探测及其相关属性。

  为了训练深度学习架构,特斯拉团队需要一个由数以百万计视频组成的庞大数据集,并仔细标记其中的目标及其属性。

  当然,为无人驾驶汽车创建数据集也颇为棘手,工程师们必须确保数据集有多样化的道路设置和不常常会出现的边缘情况。

  Karpathy 表示:「以我的经验来看,如果你有一个干净且多样化的大型数据集,并以此为基础训练一个庞大的神经网络,成功是有保证的」。

  由于数据集是离线标记的,因此神经网络可以来回观看视频,将它们的预测与事实作比较,并不断调整参数。

  离线标记还使工程师们能够应用很强大且计算密集型的物体检测网络,这些网络无法部署在汽车上,也不能用于实时、低延迟的应用。

  同时,他们还使用雷达传感器数据来进一步验证神经网络的推断,以上种种都提高了标签网络的精度。

  「离线有离线好处,在数据融合上你能做到更好,」Karpathy 说道。「此外,你还能让人类参与进来,他们能够进行更精准的验证、编辑等工作。」

  Karpathy 在 CVPR 上展示的视频显示,目标探测网络在穿过障碍、灰尘和云雪时能维持较为一致的水准。

  不过,他并没有明确解释自动标签系统到底要多少人力来进行最终修正。但能确定的是,人类的参与,在引导自动标签系统向正确的方向发展上发挥了关键作用。

  另外,在开发数据集时,特斯拉团队还发现,有 200 多个触发因素表明目标探测需要不断调整。

  这些问题包括不同摄像头探测结果的不一致,或者摄像头和雷达之间探测结果不一致。他们还确定了在大多数情况下要特别注意的场景,如隧道进出和顶部有物体的汽车。

  这意味着标签网络真正进入了消费者的车辆中,而且是在不向汽车发出指令的情况下默默运行。

  在后端,特斯拉工程师会拿这一网络的输出与传统网络、雷达和司机的行为进行比较。

  随后,他们又在真车的影子模式中整合了深度学习,并使用触发因素来检测不一致的地方、错误和特殊情况。

  「我们一遍又一遍进行这个循环,直到神经网络变得很棒,」Karpathy 说道。

  正因如此,我们大家可以将这一架构描述为——一个具有巧妙分工的半自动标签系统,其中神经网络做重复性的工作,人类负责高层次的认知问题和边缘情况。

  有趣的是,当一位与会者问 Karpathy 触发因素的生成是不是能够自动化时,他回应称:

  「触发因素的自动化非常棘手,因为你可以有通用的触发因素,但它们很难正确反馈所有情况。例如,对进入和离开隧道进行触发,我们到底要说明触发因素。在这种问题上,人类靠的是直觉。」

  为此,他们创建了一个分层的深度学习架构,由不同的神经网络组成,处理信息并将输出信息反馈给下一组网络。

  深度学习模型使用卷积神经网络,从安装在车身八个摄像头采集的视频中提取特征,并使用网络将它们融合在一起。

  在这之后,空间和时间特征被送入神经网络的分支结构中,Karpathy 将其描述为头部、树干和终端。

  Karpathy 指出:「你想要这种分支结构,是因为这样能带来大量高价值的输出,但你不能为每个输出都准备一个神经网络」。

  分层结构让特斯拉可以针对不一样任务重复使用组件,并在不同的推理路径之间完成特征共享。

  特斯拉目前组建了一个大型的机器学习工程师团队,专门从事无人驾驶神经网络的研究。

  「我们有一个大约20 人的团队,正在全职训练神经网络,他们都在为同一个神经网络添砖加瓦」。Karpathy 说道。

  这个超级计算机还拥有 10 PB 的 NVME 超高速存储和 640 tbps 的网络能力,用来连接所有的节点,并支撑高效的神经网络分布式训练。

  「特斯拉的芯片转为神经网络设计,用来支撑全自动驾驶应用。」Karpathy 说道。

  特斯拉的最大优点是其强大的垂直整合能力——不仅拥有完整的无人驾驶解决方案,同时还能制造电动汽车和无人驾驶硬件。

  现在的特斯拉,处在一个独特的位置,不但能从其售出的数百万辆汽车中收集各种数据,借助强悍的计算集群,还可以在其独有的数据集上创建和训练神经网络,并通过影子模式在其售出的电动车上验证和微调这些神经网络。

  当然,特斯拉还拥有一支由机器学习工程师、研究人员和硬件设计师组成的强大团队,能将所有的碎片信息进行深度整合。

  这种垂直整合外加创建数据、调整机器学习模型并将其部署在车辆上重复循环的方案,使特斯拉打造了业界独一无二的纯视觉无人驾驶解决方案。

  在演讲中,Karpathy 还展示了多个例子,比如新的神经网络,已超越了需要结合雷达信息的传统机器学习模型。

  Karpathy 也相信,如果这一系统继续进化,特斯拉可能会直接断了激光雷达的活路。更可怕的是,无另外的公司能够复制特斯拉的成功之路。

  不过,人类视觉还执行着许多其他复杂的功能,科学家称之为视觉的 暗物质。这些都是分析视觉输入的重要组成部分。

  深度学习模型在进行因果推理时非常吃力,当模型面对它以前没见过的新情况时,就会举棋不定。

  也就是说,虽然特斯拉已经设法搭建了一个非常庞大且多样化的数据集,但开放道路同样很复杂,各种没办法预测的事情随时有可能发生。

  当下的 AI 界,在某些问题上依然存在分歧,比如要不要明确将因果关系和推理整合到深度神经网络中,或者说,是不是能够通过「直接拟合」来克服因果关系的障碍——即一个大型的、分布良好的数据集是否能支撑适用于万事万物的深度学习。