理想VLA研发加速9个月理想技术实力不止冰箱彩电大沙发

发布时间:2025-08-05  作者:新闻资讯

  理想AI Talk第二季的核心内容还是之前理想在英伟达GTC大会上的那篇演讲《VLA:迈向无人驾驶物理智能体的关键一步》,只是这次主讲人换成了李想,也补充了一些更详细的信息。

  1、 理想做了一个32B云端VL基座模型,这个模型是专门用于视觉和语言的多模态基座大模型,能处理长思维链、进行长任务拆解。同时蒸馏出一个3.2B的小模型,加上Action后训练部分,组合成一个4B的VLA司机大模型,这样双Orin X或者Thor-U的算力就能在车端跑了。并且因为DeepSeek的开源,让VLA研发加速了9个月的时间。

  2、 理想的VLA司机大模型有两个比较特别的地方,一是支持短CoT(思维链),一般两步到三步,否则延时太长,这样子就能够确保安全。这种短CoT能解决比如“靠边停车”“前方掉头”这类短指令,实现语音控制车辆轨迹。另外Action做完以后,还做了一个diffusion(扩散模型)的预测,这个主要是依据性能会做来4到8秒的一个diffusion的轨迹和环境的预测,更接近人类驾驶。

  3、 理想在做到了1000万Clips以后,在去年底成立了一个约100人的超级对齐的团队。这个团队要做的事情是VLA大模型的“价值观”要和人类驾驶规则对齐。比如模型能力很强,但不遵守交通规则、经常去加塞等等,做出来一些让人类坐在车上感觉不安的行为。所以理想希望能够通过强化训练的环节,必须把人类的这些规则、习俗、驾驶习惯,对于很多东西的判断,变成整个预训练的反馈。

  4、 李想个人觉得并不可能会出现通用的Agent,而是每个专业领域做专业的Agent。他认为,VLA司机大模型要做好,所有的vision的语料,language的语料,和action其实都是和交通相关的,做不了一样的。

  5、 关于端到端和VLA的关系,李想认为端到端是VLA的基础,是VLA的A的部分,不做端到端+VLM是没有很好的方法一步抵达VLA的。

  6、 李想反驳了那些说理想只有冰箱彩电大沙发、没有核心技术的说法。他举了一个例子,为什么大家做端到端和VLM很难?是因为这个Orin芯片并不支持直接跑语言模型。但是理想有编译团队,有芯片的能力,有主板设计能力,有操作系统能力,所以理想能够把两个Orin-X带宽做到足够的大,它一样能跑同等规模的VLA的模型。理想这方面的技术都是非常扎实的,基本功和能力永远是无法逾越的。

  特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

  上海,女子与一男子相亲,点了2万元的酒后,女子称腹痛离开,男子刷爆信用卡支付2.5万元后报警,结果……

  被骗缅甸失联汉中高考生获救后收到本科录取通知书,将学习临床医学类专业,家属盼其好好读书

  PC鲜辣报:英伟达年内发RTX 50 SUPER AMD正计划独立NPU

  小米米家空调Pro系列OTA 5.8.0今日起陆续推送,新增“空气管理”