![]()
「拥有理解、交互和改变世界能力的机器」正在悄悄到来。
文丨智驾网 零酱
编辑丨雨来
那是小鹏智驾团队在今年二季度的一次日常VLA测试,路边突然有人挥手让他们停车,这位挥手的路人并不是一位可以被系统辨识的交警,但车辆居然按照他的手势停了下来。
还有一次,测试车辆在路上等红灯,但当红灯准备转绿、在读秒的时候,车辆竟然开始非常缓慢丝滑的蠕动,然后待绿灯完全亮起,提速通过。
招手停、提前蠕行这是小鹏团队预期外的NGP功能,但系统自己开悟了。
那一刻,小鹏汽车自动驾驶负责人刘先明脑海里浮现了两个字:涌现。
他想起了一句半开玩笑的话,人的成长靠顿悟,而人工智能的成长靠涌现。
经过累计超过20亿元的投入,基于3万张卡的算力和相当于一个普通人驾驶6.5万年遇到的极限场景之和的近1亿视频Clips的深度学习,还有一年多时间的试错、煎熬,小鹏的第二代VLA成了。
01.
小鹏智驾「涌现」新门
2024年对于小鹏的智驾路线是具有历史意义的一年。
这一年何小鹏不仅下定决心放弃雷视融合方案,全面押注视觉路线,同时也决定同步研发两代VLA,而第二代VLA的研发正是由刘先明负责。
但在相当长的一段时间内,第二代VLA的研发一直止步不前,刘先明表示其团队成员一度失去信心,团队高管甚至逃避参与报告会。
直到那个「涌现」时刻的突然出现,似乎有一道门向我们打开了。
「涌现」原来是一个生物学概念,整整150年前,英国哲学家乔治·亨利·刘易斯在其著作《生命与心灵的问题》一书中阐述「鸟群自组织飞行」等群体行为时,提出「即使完全了解单个个体的所有行为,也无法预测群体层面涌现出的复杂模式。」
这是「涌现」概念首次被科学界接受。
20世纪(参数丨图片)初,昆虫学家威廉·莫顿·惠勒发现虽然单个蚂蚁的智力有限,但整个蚁群在没有中央指挥的情况下却可以完成筑巢、觅食等复杂任务。
惠勒将蚁群描述为「超个体(superorganism)」,其作为一个独立行动者展现出「涌现进化」的特性——整体大于部分之和。
1982年,约翰·霍普菲尔德(John Hopfield) 在论文《具有涌现集体计算能力的神经网络与物理系统》中,明确将蚂蚁觅食路径优化作为涌现计算能力的经典范例。
今天,人类已在蚁群、大脑神经网络、免疫系统、AI等领域清晰地观察到了涌现现象。ChatGPT4这一生成式AI模型正是其训练数据和参数规模达到一定程度时,突然涌现出让人惊叹的理解能力。
蚂蚁系统的涌现特性经历了从哲学思辨到科学实证再到技术应用的完整发展历程。
对于智驾系统而言,路上的行人、车辆等数据就如同一只只蚂蚁,这些数据最终能催生一个蚂蚁系统吗?
11月5日,在小鹏汽车科技日上,何小鹏对外明确表示,基于第二代VLA的小鹏智驾系统已经出现了涌现现象。
![]()
这些场景并未在训练数据中专门标注,而是模型自我演进的结果。
何小鹏强调,涌现现象是持续发生的。
可以说,智驾正来到一个智能涌现的临界点。
02.
去掉L的第二代VLA大模型
在智驾领域,关于VLA是不是一条必经之路,业内尚存在争论的时候,小鹏汽车的第二代VLA会不会是新的名词营销呢?
VLA即Vision-Language-Action(视觉-语言-动作)是一种融合视觉、语言与动作三大模态的端到端大模型。
其核心突破在于打通「感知-决策-控制」全流程,通过多模态大模型直接输出控制信号,减少传统模块化架构的信息损耗。
这一模型早期主要应用于机器人领域。
小鹏汽车、理想则成为将VLA最早引入智驾的两大整车厂。
![]()
小鹏汽车推出的第二代VLA,最大的变化即是去掉了「语言转译」环节。
这一变化的通俗理解即是,通过从视觉信号到动作指令的端到端直接生成,不再需要将视觉信息转化为文本描述,再转为控制指令,而是直接学习物理世界的交互规律。
小鹏汽车自动驾驶负责人刘先明表示,去掉VLA中的L,是小鹏团队认为的、更大规模使用数据的前提。
刘先明解释称,过去几年AI发展的最大原动力来自于不停的使用规模数据训练,但如果想要更大规模地使用数据,一定要拆掉所有的separation(模块界限),让它变成一种「自监督」模式。
「很多VLA架构基本都是图像进来,通过一个大语言模型最终输出——meta action(高级抽象的动作指令),meta action一般是文字,然后再通过文字的方式处理后输出。这种方式最大的好处是有众多开源模型可以使用,可以直接拿开源的NLP模型来做推理。」
但只要有语言存在,就一定涉及到人工的筛选或标注,比如一段1200多字的文字描述也无法精准地「翻译」一个十几秒的视频:
「这样会让数据使用的规模受到限制,而一个系统只有去掉所有中间瓶颈,才可能大规模地做起来。」
而以视觉为核心,把模型看到的世界直接转换成运动轨迹,就可以直接利用海量的真实驾驶视频进行训练,而无需任何人工数据标注。
这是小鹏选择去掉L的底层逻辑。
但实际上,小鹏的第二代VLA并没有完全抛弃L,在何小鹏给出的模型架构图中,L被当作V的并行信号,同时输入给模型,以产出Action(动作)。
「我们说V+L,强调的是转译环节没有变成人类的语言和格式,而是变成了一个物理世界的新语言,所以它不是人类可见、可认知的语言,但效率更高、信息更丰富。」
第二代VLA让自动驾驶回到了刘先明认为的物理世界交互的本质:直接输出控制信号。
「如果我最终输出的信号直接是‘行为’,它其实包含了重建、理解、生成和最后推进的所有过程。如果可以用更大规模的数据、更大的模型将这件事做下来,理论上就可以解决这个问题。」
小鹏智驾团队的这一做法,在智驾网看来与DeepSeek团队最新开源的一项技术突破——《DeepSeek-OCR: Contexts Optical Compression》有异曲同工之处。
该论文通过实验数据展示了通过图像压缩技术来处理文本,从而实现大模型上下文窗口的10倍级无损扩展。
这一技术的核心是将文本处理成视觉token,也就是将文字渲染成图像,并直接编码成模型能理解的语义单元。
这意味着,这些视觉token本身就是模型可以直接使用的语义信息,无需额外的解压步骤。视觉token不仅节省空间,提高了处理效率,并在推荐算法和多模态交互方面提供了增强体验。
将VLA变为V+L,正是利用了视觉数据的优势,解决了一个一个文字信号的数据结构化和离散性,容易导致大量信息损失的缺陷。
而视频包括其它传感器的数据都是连续信号,输出空间也是连续的,这对于智驾系统在控制车辆时保持信号的连续性有天然优势。
![]()
刘先明以刹车信号为例:看似是0.21和0.22的区别,两个信号的差异不是0.1的问题,而是撞和不撞的问题,这是个连续信号,没有办法通过离散化的Token方式输出它。
换句话说,第二代VLA让何小鹏坚持的视觉智驾技术路线具备了先天优势,当然这一优势尚需工程和量产验证。
但现在第二代VLA带来的惊喜和突破已让小鹏的智驾团队笃信:
「一个全新的大门正在打开。我们有能力在未来给大家带来更安全、更丝滑、更强力的自动驾驶系统,我们打算全力以赴在新版本的VLA里面向前。」
「新一代VLA让小鹏自动驾驶的升级换代节点提前了近两年。」
在外界来看,目前小鹏智驾团队公布的现象和细节尚有不足,对于智驾系统自我进化的能力缺乏第三方验证。
小鹏团队表示,一方面会在第二代VLA正式发布时公布更多的细节,另一方面也是应对激烈竞争的市场环境基于保密原则做的自我保护。
但小鹏汽车的研发架构已进行了迅速调整,侧面印证了第二代VLA成功后带来的影响。
在车端,小鹏团队针对图灵AI芯片重新开发了针对性的编译器和软件栈。
得益于「芯片-算子-模型」全链路优化,小鹏汽车最终做到了在算力高达2250TOPS的Ultra版车型上,搭载数十亿级参数规模的第二代VLA,而行业普遍车端模型参数量目前尚停留在千万级规模。
对于涌现是如何突然发生的,刘先明给出了一个十分「第一性」的解释:
「大模型、大算力、大数据,堆到一块就变成了我们推出的模型,非常简单的逻辑,背后原理非常简单,也没有什么复杂的故事。」
为了尝试新的VLA模型,小鹏投入了3万张卡的算力集群,烧了20多亿的研发费用、和相当于一个普通人驾驶6.5万年遇到的极限场景之和的近1亿视频Clips。
简言之,第二代VLA是在理顺技术逻辑、拥有足够投喂数据、车端硬件过硬的三重条件下「涌现」出来的。
「但是想把这件事情做好,背后的难度也是很大的,几十个PB数据一口气读进来,还要在千卡、万卡的情况下保持稳定,不要崩掉,应该没有人能在这个规模做得到。」
但需要注意的是,目前AI的「涌现」尚处于不可预测阶段,甚至有一部分技术分析认为其存在一些「玄学」特性。
这其实也是业内当初对VLA争议的原因之一,但随着更大规模的数据投喂,更多的训练,AI的不可预测性会向更合理性迭代。
03.
物理AI让自动驾驶变得简单
在今年年初,黄仁勋在CES的开幕演讲中将人工智能的发展总结为四波浪潮:感知式AI——生成式AI——代理式AI——物理式AI。
他认为:
「机器人技术的ChatGPT时刻即将到来。」
黄仁勋一手推开了物理AI的大门,并表示机器人和智驾是物理AI的两大应用场景。
什么是物理AI?
何小鹏在科技日上解释说:
「当数字世界和物理世界融合,将催生物理AI。」
在他看来,即使AI在数字世界中已展现出超越人类智慧的潜力,但如果无法与物理世界交互,其实际价值将极为有限。只有赋予AI「身体」,使其能走、能看、能交互,AI才能真正改变人类的生产与生活方式。
![]()
在跑通第二代VLA之后,小鹏理解和推演的物理世界模型也随之成型,它在理解真实世界交互规律的同时,进行自我演进式学习,并且该模型可跨域驱动汽车、Robotaxi、机器人和飞行汽车。
为此,何小鹏在今年的科技日先后推出了全新一代人形机器人IRON、新一代飞行汽车,并公布了三款在研的Robotaxi计划。
这是何小鹏判断的数字世界和物理世界融合的开始。在这一新的技术趋势下,将会诞生「拥有理解、交互和改变世界能力的机器」。
而自动驾驶放在物理AI的逻辑项下,在刘先明看来是最简单的问题:
「你要尝试去理解这个世界,对它做三维的建模,去推演整个世界要发生什么,做预测,再根据这些做出最安全、最符合人类意识的一种选择,这就是物理AI的本质。」
刘先明认为,自动驾驶的所谓「简单」体现在只有两个自由度,向前的加速度和方向的转角,相比于正常机器人来说,它的自由度会小很多,舒适空间会少很多,数据也更容易获取。
「所以我们要解决物理AI 的问题,第一件事就是做自动驾驶,去解决最核心的问题。」
基于第二代VLA,小鹏汽车即将发布「小路NGP」功能,显著提升复杂小路与混行环境下的智驾表现,复杂小路的平均接管里程(MPI)提升了13倍。
此外,小鹏汽车还行业首发了「无导航自动辅助驾驶」Super LCC+人机共驾,它不依赖导航全球范围均可开启,在漫游的过程中轻转方向盘,车辆即可协同完成变道和转向。
对于第二代VLA,何小鹏已宣布面向全球商业伙伴开源,大众汽车集团将成为除小鹏外的第二代VLA首发客户;「供应商」正在成为小鹏的附带身份之一。
![]()
与C端自动驾驶同步成行的,即是小鹏预告很久的Robotaxi。
硬件层面,小鹏的Robotaxi车型将搭载4颗图灵AI芯片,车端算力达3000TOPS,包括2250TOPS运算算力和750TOPS冗余算力,并在算力、转向、感知等多方面采用两套硬件互为备份,官宣的三款车型将在车身尺寸和车内布局上有所区分。
小鹏第二代VLA模型将成为小鹏Robotaxi的软件基础,后续这一版本将命名为「Robo」,成为C端用车的全新智驾版本,与Robotaxi共享硬件配置和智驾能力,并提供两种智驾模式选择。
在何小鹏看来,相比于目前已经在全球布局的Robotaxi公司,小鹏最大的优势是成本和技术。
首先是作为整车企业,其Robotaxi的BOM成本和软件开发成本都可以与乘用车共享。
其次,随着第二代VLA带来的能力提升,小鹏Robotaxi在大规模铺开过程中无数据标注、无信息损失,理论上来说只要这个地方有足够多小鹏自己的车,就可以搞定这件事。
这一方面强化了泛化的能力,另一方面也能更高效地满足监管要求,为面向全球合作伙伴开放提供了可能。
「当你解决了一个问题之后,你发现之前很多解决不了的难题,正在被新的方法论非常轻易地解决。」
04.
一款让人激动、引发争议的机器人
在何小鹏公布的第二代VLA序列推送的时间表中,先锋共创体验将于今年12月启动,2026年一季度随Ultra车型全量推送,Robotaxi业务同样将在2026年发布并启动试运营。
而机器人和飞行汽车,将是小鹏在未来十年改变世界的机器。

尽管依然不是量产版本,但小鹏第二代IRON机器人已成为小鹏今年最惊艳的一款产品,它引发了「究竟是不是真人」的广泛关注,以至于何小鹏不得不临时加演了一场现场「剪腿」自证并非真人表演。
这一次舆论喧嚣,其实是引发了大众对机器人领域的一个古老话题的关注:人形机器人是不是一定要做得高度类人?
何小鹏其实在第一时间向媒体解释了三个原因:
第一,今天机器人想做到聪明,不能用规则,要用AI来驱动,只有从人类世界(才)可以学到最多的数据。
第二、家庭、工厂,实际上大部分都是为了方便人类去使用而设计、建造、运营的,所以如果它越像人,越容易适应这个世界。
第三、类人容易增加亲近感,从而促进销售实现规模化的正向循环。
小鹏汽车机器人副总裁、AI技术委员会负责人米良川(LC)在与智驾网沟通过程中则提到了一个让业内思考的工程问题:
「为什么机器人会长成特定的样子?是因为机器人技术不够强大或者不够通用场景,当你解决一个问题的时候,你会为一个场景做定制化的硬件,实际上就是一种Special designed hardware(专门设计的硬件),就是For dedicated Use case(专用案例),这种情况下,带来的结果就是你的硬件设计跟你的使用场景是强绑定的。」
米良川认为,此前多次机器人热潮的停滞,一个普遍现象是每次功能迭代都需要机器人修改硬件,这很大程度制约了机器人行业的发展速度。
「通过小鹏机器人的努力,能否摸索出一条道路,把机器人产业的技术迭代从硬件模式变成软件模式?」
而采用高度类人的路线,则有望可以实现米良川希望的「软件模式」迭代,进而后续对于硬件端的改进,也便有了更稳定的方向。
在第二代IRON的开发过程中,小鹏的机器人团队首先为其确认了腰和脊椎的硬件状态,另外在IRON的前脚掌也增加了自由度。
![]()
而在软件层面,何小鹏向智驾网透露,在机器人与整车的生产过程中,尽管没有具体数字统计有多少零部件共享,但是软件和AI方面共享了很多,「感知」、「域控制器」大部分都是一样的,「AI软件」其中70%是一样的。
在此基础上,小鹏计划为其引入全新AI系统「VLT」,该系统可接收视觉与语言输入,直接输出并生成任务系统。
这让小鹏机器人与与自动驾驶一样,迎来了自己的「涌现」时刻,也就是戏剧性的引发本次争论的机器人「走猫步」。
「就在今年3月的一个晚上,IRON在倒退行走时突然变得非常拟人。这是我们生成式控制器的一个拐点,但我也说不清楚到底是哪次优化带来了变化,只能说当数据和算力达到了一定程度,就实现了阶跃。」
面对媒体,何小鹏丝毫没有掩饰对机器人产业的乐观判断,他认为汽车一年生产9000万台,在全球是10万亿美金的市场;而机器人是20万亿美金的市场,虽然可能需要10~20年的时间发展,但最终可能形成一个2亿台或者更大规模的人形机器人市场。
而在未来十年,机器人业务有望超过整车,在销量规模上,将超过100万台。
在一个高度内卷的市场,虽然小鹏汽车的销量刚刚有所突破,但小鹏汽车尚未实现盈利之时,为什么选择同步推进机器人、Robotaxi、飞行汽车等长周期的项目?
米良川回答说:「是相信。」
「之前也有人说小鹏很有眼光,飞行汽车、机器人都做对了,新能源也做对了,但实际上根据我的了解,更多是相信的力量,不是完全看到了这个机会,而是相信这个事情,且,愿意为之投入。」
![]()
因为相信所以敢于坚持,11月5日在小鹏科技日的中央舞台,何小鹏宣布公司定位进一步升级:从「未来出行探索者」进化为「物理AI世界的出行探索者,面向全球的具身智能公司」。
一周之后,因为人工智能和机器人等新产品的发布超预期,港股小鹏市值暴涨15.11%,截至发稿,小鹏汽车总市值达2022.4亿港元,超越了吉利汽车的1817.3亿港元。
自11月以来,小鹏股票累计涨超20%。
站在一个新十年的起点,小鹏的勇气与坚持正收获来自资本市场的认可与期待。

关注汽车的智驾时代上智驾网(http://autor.com.cn)
合作or新闻线索提供,联系邮箱:editor@autor.com.cn
相关文章
2025-11-130阅读
2025-11-130阅读
2025-11-130阅读
2025-11-130阅读
2025-11-130阅读
2025-11-130阅读
2025-11-130阅读
2025-11-130阅读
2025-11-130阅读
2025-11-130阅读