详解“端到端”下一代模型VLA，通向自动驾驶的关键跳板

2024-11-09 来源：互联网

像海鲜市场一样，智能驾驶行业技术浪潮正在快速更迭。“端到端”刚成为新的技术范式，甚至大量公司还没来得及完成研发模式切换，端到端就进入了技术换代时期。

“端到端”的最新进化方向是，深度融入多模态大模型。过去两年，大模型已经展现出了读文、识图、拍电影的能力，但大模型开车恐怕还是头一遭。

近期，智驾行业出现了一个融合了视觉、语言和动作的多模态大模型范式——VLA(Vision-Language-Action Model，即视觉-语言-动作模型)，拥有更高的场景推理能力与泛化能力。不少智驾人士都将VLA视为当下“端到端”方案的2.0版本。

事实上，VLA模型最早见于机器人行业。2023年7月28日，谷歌 DeepMind推出了全球首个控制机器人的视觉语言动作(VLA)模型。

不过这个模型概念正快速扩散到智驾领域。今年10月底，谷歌旗下自动驾驶公司Waymo推出了一个基于端到端的自动驾驶多模态模型EMMA。有行业人士表示，这就是一个VLA模型架构，既有端到端智驾能力，还融合了多模态大模型。

过去，智能驾驶行业基于规则算法，进行了十数年探索。近两年，特斯拉引领的“端到端”智能驾驶，成为新的技术方向，不仅让智驾具备更拟人的表现，也能应对城市中海量的复杂交通场景。

配合“端到端”技术，行业玩家还会增加大语言模型等来提升智驾能力上限。端到端+VLM(视觉语言模型)，就被理想等公司推崇。

但不同于VLM相对独立、低频地为端到端提供驾驶建议的模式，VLA架构下，端到端与多模态大模型的结合会更彻底。就连理想人士也向36氪汽车坦承，“可以把VLA看成是端到端+VLM的合体。”

VLA模型，很可能是“端到端+VLM”技术框架的“终结者”。

有行业人士表示，VLA模型对智驾的演进意义重大，让端到端理解世界的能力更强后，“长远来看，在L2辅助驾驶到L4自动驾驶的飞跃中，VLA可能会成为关键跳板”。

一些车企智驾玩家已经在暗自发力。此前，理想汽车曾在三季度财报电话会议上表示，内部已经启动了L4级别自动驾驶的预研，在当前的技术路线基础上，研发能力更强的车端VLA模型与云端世界模型相结合的强化学习体系。

智驾公司元戎启行在获得长城汽车的7亿元注资之后，也表示将进一步布局VLA模型。元戎启行称，公司将基于英伟达最新智驾芯片Thor进行VLA模型研发，模型预计于2025年推出。

[责任编辑：lily ]