银河通用发布全球首个产品级端到端具身FSD大模型-新零售-资讯-头部财经

银河通用发布全球首个产品级端到端具身FSD大模型

资讯 » 新零售 2025-06-01

6 月 1 日消息，银河通用发布全球首个产品级端到端具身 FSD 大模型 ——TrackVLA，一款具备纯视觉环境感知、语言指令驱动、可自主推理、具备零样本（Zero-Shot）泛化能力的具身大模型。

据了解，TrackVLA 是银河通用推出的产品级导航大模型，纯视觉环境感知、自然语言指令驱动、端到端输出语言和机器人动作，是一个由仿真合成动作数据训练的“视觉-语言-动作”（Vision-Language-Action, VLA）大模型。它让机器人拥有“听 → 看 → 懂 → 走”的闭环运动能力：一双眼睛看世界、一个智能“大脑”做推理，无需提前建图、不依赖遥操控制，真正实现语言驱动、泛化感知、自主推理、智能交互与运动。

TrackVLA 八大核心能力：

1. 听得懂你说话，还能换人跟

你只需说一句：“跟着妈妈”，它就能立即识别“妈妈”对应的目标位置。如果改口说“换成跟孩子”，它也能瞬间切换对象，并通过语音回复确认。甚至，Ta 还能跟踪你的宠物。这背后，是模型具备的自然语言理解与目标识别能力的协同工作。

2. 不怕人多也不跟错人

在人流密集的购物中心中，面对复杂的场景、多变的环境中多个相似穿着的人，它能准确识别原始目标并长时自主跟随。通过空间理解和视觉记忆机制，避免“认错人”。

3. 丢了目标能找回来

如果目标走出视野，它不会原地“发呆”，而是通过实时的空间智能和大模型推理能力根据目标运动轨迹“分析出”目标的大致位置，并规划轨迹重新找回目标。

4. 从没见过的地方也能走

TrackVLA 不依赖建图，靠纯视觉输入理解环境。可在不依赖额外采集训练数据的情况下，直接部署在陌生商场、电梯、游乐区等环境，实现长时稳定自主跟随。

5. 灵活避障，适应复杂场景

在儿童游乐区、狭窄通道等复杂场景中，它能实时识别障碍物（包括儿童、玩具、地面水渍等），分析可通行区域，并可正确认知自身本体能力，自主推理出自身构型支持的合理路线。

6. 环境光线变化？不怕

从室外阳光到室内昏暗、从电梯镜面反射到超市货架夹缝，TrackVLA 展现出极强鲁棒性，无需专门调参或切换模式。

7. 远程可视守护，一目了然

通过 App，你可以实时看到机器人眼中的第一视角，掌握家人动态。系统还能主动提醒风险行为（如小朋友奔跑、老人跌倒），提供“移动守护”。

8. 技能涌现！

TrackVLA 不仅能稳定跟随人类，还可以泛化至任意移动目标。比如视频最后展示了让机器狗跟随一只路上偶遇的动物狗狗，其目标形态、运动方式、遮挡情况都非常不确定。TrackVLA 也表现了同样稳定的跟随能力，而这一能力是训练时从而教过的！

目前，该模型已搭载于宇树机器狗化身“二宝保镖”实现儿童看护，在未训练过的真实场景中完成了严格的长程验证。目前 TrackVLA 已在未训练过的真实场景中完成了严格的长程验证：实现在超市中穿梭于人流和货架之间，准确跟随母子；根据语音指令切换目标，并在儿童玩耍时发出提醒；可正确认知自身本体能力，利用大模型自主推理分析；从电梯进入陌生商场，完成连续跟随任务；在人群密集的服装店中稳定识别并避让他人干扰……

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

元光科技开启招股：募资超2亿阿里与滴滴加持，拟6月10日港股上市

2025-06-025阅读
容大科技开启招股：年营收3.5亿拟募资2亿，6月10日上市

2025-06-025阅读
Windows记事本越来越臃肿！新增Markdown功能惹用户不满

2025-06-025阅读
销售会“提问”，再冷淡的客户，也愿意和你聊天

2025-06-025阅读
经济政策一线微观察｜银发专列激活文旅消费新势能

2025-06-025阅读
京东 MALL北京首店端午开业人气爆棚开业首日客流超3万

2025-06-025阅读
消息称三星 Galaxy Ring 2 智能戒指处于早期开发阶段

2025-06-025阅读
华硕响应微软号召：劝用户弃Win10投Win11！称这是“明智之举”

2025-06-025阅读
华为余承东：尊界S800价值非常高，带动十几个省221家供应链企业走高端化

2025-06-025阅读
安全公司披露黑客新型钓鱼攻击手法，利用虚假弹窗登录页

2025-06-025阅读