北京商报讯(记者 刘晓梦)5月7日,理想汽车正式发布VLA(Vision—Language—Action)司机大模型。理想汽车CEO李想表示,VLA的诞生意味着AI首次具备“人类智能”层级,能够独立承担专业驾驶任务,成为真正的生产工具。这一模型的推出,不仅标志着自动驾驶从辅助阶段迈向自主执行阶段,也预示着人工智能在交通行业中的角色,正从信息工具、辅助工具演化为关键的专业劳动者。
李想将人工智能的发展比作生命进化,从2021年起,理想汽车的辅助驾驶主要依赖规则算法和高精地图,处于类似“昆虫动物智能”的阶段;2024年,端到端+VLM视觉语言模型的引入,使智能水平接近“哺乳动物”。如今,VLA以3D与2D视觉融合、语言能力与CoT推理能力结合的形式实现了向“人类智能”的跃升,具备对交通环境的完整感知、理解与行动能力,真正成为一名智能“司机”。
VLA的诞生并非偶然,而是源自一整套模拟人类学习过程的训练体系。其训练过程分为预训练、后训练与强化训练三个阶段:先通过高清视觉与语言数据掌握基础认知;再通过动作数据加入,构建具备博弈能力和实时判断力的完整模型;最终借助人类反馈和世界模型的强化训练,实现与人类价值观的深度对齐,确保驾驶行为安全、舒适,并符合中国用户的习惯。
关键的是,理想汽车在AI安全性与“黑盒”问题上提出系统解决方案。通过超过百人的“超级对齐”团队,模型在法规遵守、驾驶行为一致性、技术安全等方面被严密约束,避免出现如实线变道、闯红灯、被远程恶意控制等问题。同时,借助世界模型技术,VLA能够在虚拟世界中低成本验证决策路径,提升算法的可靠性和透明度。
VLA还拥有“司机Agent”的产品形态,支持用户通过自然语言直接指令模型完成驾驶任务,复杂指令由云端解析,简单指令由端侧快速响应,实现“像与人类司机对话一样”的交互体验。其评价标准亦趋近于真实司机,包括专业能力、职业素养与用户信任三方面。技术落地背后,是理想汽车自主研发能力的集中体现。面对Orin X芯片不支持运行语言模型的限制,理想团队自研编译器和推理引擎,借助INT4量化方式成功部署VLM模型。同时,自研操作系统星环OS也已开源,显示出其在芯片、操作系统和软件集成领域的技术深度。
本网站所有内容属北京商报社有限公司,未经许可不得转载。 商报总机:010-64101978 媒体合作:010-64101871
商报地址:北京市朝阳区和平里西街21号 邮编:100013 法律顾问:北京市中同律师事务所(010-82011988)
网上有害信息举报 违法和不良信息举报电话:010-84276691 举报邮箱:bjsb@bbtnews.com.cn
ICP备案编号:京ICP备08003726号-1 京公网安备11010502045556号 互联网新闻信息服务许可证11120220001号