博鳌热议AI：下一步是要获得“看懂世界”的能力-新科技-资讯-头部财经

博鳌热议AI：下一步是要获得“看懂世界”的能力

资讯 » 新科技 2026-04-01

过去一年，AI在数字世界里几乎无所不能。

它能写代码、做PPT、整理会议纪要，也能调用工具、操作网页，完成一整套复杂流程。人们逐渐用“Agent”来概括这种能力，并开始期待，它进一步接管更多工作。

但热闹之外，一个更现实的问题开始浮现。

这些能力之所以成立，是因为它们处理的，是一个已经被“整理好”的世界。文本是结构化的，网页是可解析的，数据库是标准化的。AI并不是在理解现实，而是在处理人类已经翻译过的信息。

一旦离开这个环境，问题就变了。

你用手机拍下一张照片，画面清晰、光影准确，甚至可以还原氛围。但手机并不知道，这个人为什么站在这里，也无法理解这张照片背后发生了什么。你用长焦拉近远处的一个身影，细节纤毫毕现，但它依然无法判断，这个人是在赶路，还是在犹豫。

换言之，目前的AI可以处理信息，但还无法理解世界。

在博鳌亚洲论坛2026年年会期间，vivo与多位技术负责人反复谈到同一个问题：如果AI要真正进入物理世界，它需要的第一步，不是更强的算力，而是获得“看懂世界”的能力。

而手机，可能是这件事最现实的起点。

第一财经《总编看博鳌》节目邀请到vivo AI和影像产品负责人，以及商汤科技联合创始人、大晓机器人董事长王晓刚，开启了关于“AI竞速下半场：感知决胜”的对话。

AI为什么还没有真正改变手机？

如果只看技术演进路径，手机本应是AI最先发生质变的终端。它拥有最广泛的用户基础、最完整的使用场景，以及最密集的数据入口，从语音、图像到位置与行为轨迹，几乎覆盖了人与数字世界交互的全部维度。

但现实却是，AI在手机上的表现始终停留在“有用，但不惊艳”的阶段。

“手机上的AI能力是存在的，但这些能力之间是割裂的，用户的交互方式并没有发生根本变化。”在vivo AI副总裁张飞看来，问题并不在于能力是否存在，而在于这些能力并没有形成一个统一的结构，也没有改变用户与设备之间的基本关系。

过去十年，智能手机逐渐固化出一套以应用为中心的使用路径：用户解锁设备、进入App、执行操作，再返回系统。这一模式将功能拆分为无数独立入口，也让用户始终处在“主动操作”的位置。AI的加入，并没有重构这一流程，而只是嵌入其中，成为某些环节的效率工具。

这也是为什么，大多数用户并没有真正感知到“AI时刻”的到来。

在vivo内部，这一问题也被反复思考，它被进一步拆解后，答案逐渐清晰。首先是任务结构的复杂性。与目标单一的系统不同，手机承载的是高度分散且不断切换的任务集合。沟通、娱乐、搜索与决策往往同时发生，并不存在一个统一目标。

“机上的任务是高度多样化、分散且多线程的。”张飞指出，这使得模型不仅要理解指令，还需要在复杂上下文中进行推理与调度，而这一能力直到近期才逐步成熟。

交互方式的滞后也是原因之一。尽管AI已经具备一定理解能力，但用户依然需要通过寻找入口、点击按钮、组织语言来驱动系统运行。

“用户仍然要去找入口、点按钮、发指令，这本质上没有变化。”张飞认为，这意味着人与机器的关系并未发生根本转变，真正的突破应当是由设备主动理解用户，而不是用户不断适应设备。

更深层的问题，则来自数据本身的分布方式。手机中的信息被封装在不同应用之中，每一个App都是一个相对封闭的系统。AI若要跨应用完成复杂任务，就必须打破这种边界，但这又不可避免地触及隐私与平台规则。

在这一背景下，vivo选择将更多智能能力部署在端侧。

“不是把数据带到智能那里，而是把智能带到数据所在的地方。”张飞的这一判断，走的是一种以本地理解为核心的路径，也重新定义了手机在AI时代的角色。AI不再只是应用的容器，而是一个能够整合信息、完成推理的智能中枢。

但即便完成这些调整，手机仍然缺少一项更基础的能力：对现实世界的理解。

这也是AI尚未真正改变手机的根本原因。

AI正在离开手机，走向现实世界

如果把AI的发展划分阶段，它正在经历一次关键的方向转移。

“AI 1.0依赖人工标注，AI 2.0依赖互联网数据，而AI 3.0将进入物理世界。”商汤科技联合创始人、执行董事，大晓机器人董事长王晓刚用这一划分描述了AI的演进路径。在这一框架中，当前的大模型仍然建立在“被数字化信息”的基础之上。

“智能是在与物理环境的交互中产生的。”他说。

这一判断意味着，仅依赖文本与图像训练的模型，虽然能够在表达与生成层面表现出色，但依然无法真正参与现实。它们可以解释世界，却无法行动；可以生成答案，却难以完成任务。

这也是为什么，今天的Agent可以处理复杂文档，却难以完成现实中的简单行为。寻找物品、判断情绪或应对动态环境，这些问题之所以困难，并不在于逻辑复杂，而在于它们发生在一个非结构化的世界之中。空间关系在变化，环境在波动，而力、触觉、摩擦等关键变量难以被标准化描述。

王晓刚以一个具体动作举例：抓起一瓶水。这一过程涉及重量判断、接触方式与角度控制，而这些因素在不同情境中不断变化。对于当前模型而言，这类信息几乎不存在于训练数据中。

在这样的背景下，从“理解信息”到“理解世界”，成为AI必须跨越的一道鸿沟。

它不仅要求AI能够理解物理规律，还需要具备对环境变化的预测能力，以及在不确定条件下做出决策的能力。这已经不再是模型规模的简单扩展，而是数据来源与训练方式的根本转变。

“我们需要第一视角的数据。”王晓刚指出，与互联网数据不同，这类数据来自人与环境的真实互动过程，包含连续的行为、空间关系与情境变化。只有在这样的数据基础上，AI才可能逐步建立起对现实的认知。

在这一过程中，手机的重要性开始凸显。它并非算力最强的设备，也不是执行动作的终端，但它是最贴近用户、最频繁参与现实互动的入口。作为一个随身设备，手机持续记录人与世界之间的关系，这使其在新一轮数据范式转移中占据关键位置。

张飞也从另一个角度强调了这一趋势。他认为，AI要进入具身智能阶段，就必须同时理解数字世界与物理世界，而后者是不可回避的基础。“AI真正需要知道的是，你是谁，你在哪里，你在做什么，你周围发生了什么。”

这也解释了为什么，影像能力在这一轮AI演进中，被重新放到核心位置。

影像成为AI理解世界的起点

在过去十年里，手机影像的竞争，本质是“拍得更好”。更高像素、更强防抖、更真实的色彩还原，构成了主要技术路径。但在AI语境下，影像的意义正在发生变化。

“影像是AI进入物理世界的一扇门。”张飞说。

这一判断背后，是影像能力的重新定义。

vivo 影像高级产品规划专家李卓指出，影像的核心价值正在从“记录”转向“获取信息”。随着能力增强，影像系统不再只是服务拍摄需求，而是开始具备对环境的分析能力。

他举了一个已经落地的例子：通过摄像头，系统可以实时识别环境结构，帮助视障人士理解周围空间，包括物体位置与相对关系。这种能力，本质上已经超出了传统影像的范畴。

“相机不再等你按快门，它在打开的一瞬间，就开始理解环境。”李卓的这句话，描述的是影像系统工作方式的改变——从拍摄后的处理，转向拍摄过程中的实时理解。设备开始结合环境信息，对用户行为做出响应，甚至参与到决策之中，从而使相机逐渐从工具转变为协作者。

这种变化，也在具体产品上得到体现。3月30日刚刚发布的vivo X300 Ultra，围绕影像能力进行了系统性升级。该机搭载行业最远的400mm增距镜，并配合专业兔笼等模块化设备，使手机在远距离拍摄与稳定性上进一步接近专业设备水平。

在视频能力方面，vivo X300 Ultra支持全焦段4K 120fps 10bit Log与杜比视界录制，并在防抖、对焦与高像素成像之间实现协同，形成更完整的动态影像体系。同时，其专业摄影机模式与视频调色能力，将拍摄与后期流程进一步整合，使移动设备逐步具备接近专业创作工具的工作方式。

这些能力的意义，并不仅仅在于“拍得更好”，而在于让影像系统能够捕捉更完整的环境信息。从空间结构到动态变化，再到声音采集（如“四麦收音系统”对环境声的处理），手机正在形成一个多维感知入口，为AI提供更丰富的现实数据。

李卓的判断是：“‘身临其境’会从形容词变成能力。”当图像不再只是静态画面，而成为可以被理解、被分析甚至被重建的信息载体时，影像也就成为AI进入现实世界的起点。

而在博鳌亚洲论坛这样的高密度信息场景中，这种能力也开始呈现出更现实的意义。对于媒体而言，报道不再只是记录发言与整理观点，还包括对现场环境、人物状态以及细节变化的捕捉。在这一过程中，手机逐渐从记录工具转变为生产工具。在今年博鳌论坛的现场，也出现了很多媒体使用vivo X300 Ultra及其增距镜、兔笼等拓展套件，跑新闻的场景。

以vivo X300 Ultra为代表的影像能力，使记者可以在复杂光线与远距离场景下完成稳定拍摄，并通过高规格视频与音频记录，直接获取可用于制作的内容素材。从会场发言到场外交流，从宏观场景到细节特写，一部手机即可覆盖大部分采集需求。

这种能力的提升，使移动设备在新闻生产流程中的角色进一步前移，也让“第一现场”的信息获取更加完整与高效。

如果说过去两年的AI，已经完成了对数字世界的重构，那么下一步，它必须进入现实。vivo给出的答案，已足够清晰，因为只有当世界被理解，AI才真正有机会改变它。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

又一家手机公司要做AI眼镜了，前一加联合创始人出手

2026-04-018阅读
首款天玑9500s风冷手机来了！OPPO K15 Pro系列发布：2899元起

2026-04-018阅读
微软在干嘛：Linux打游戏反超Windows！没有原生版依然乱杀

2026-04-018阅读
雷军：5小时，直播拆一台新SU7

2026-04-018阅读
中国联通提出新框架MeanCache，刷新多模态生成模型推理加速基准

2026-04-018阅读
HMD Crest 2 Pro手机曝光：6000mAh电池、5000万主摄

2026-04-018阅读
广汽丰田3月销量66127辆，一季度销量171584辆

2026-04-018阅读
航旅纵横上线AI预订功能

2026-04-018阅读
首颗“雄安造”卫星“雄安一号”蓄势待发

2026-04-018阅读
阿里巴巴发布最新图像生成与编辑模型Wan2.7-Image

2026-04-018阅读