过去一年,AI在数字世界里几乎无所不能。
它能写代码、做PPT、整理会议纪要,也能调用工具、操作网页,完成一整套复杂流程。人们逐渐用“Agent”来概括这种能力,并开始期待,它进一步接管更多工作。
但热闹之外,一个更现实的问题开始浮现。
这些能力之所以成立,是因为它们处理的,是一个已经被“整理好”的世界。文本是结构化的,网页是可解析的,数据库是标准化的。AI并不是在理解现实,而是在处理人类已经翻译过的信息。
一旦离开这个环境,问题就变了。
你用手机拍下一张照片,画面清晰、光影准确,甚至可以还原氛围。但手机并不知道,这个人为什么站在这里,也无法理解这张照片背后发生了什么。你用长焦拉近远处的一个身影,细节纤毫毕现,但它依然无法判断,这个人是在赶路,还是在犹豫。
换言之,目前的AI可以处理信息,但还无法理解世界。
在博鳌亚洲论坛2026年年会期间,vivo与多位技术负责人反复谈到同一个问题:如果AI要真正进入物理世界,它需要的第一步,不是更强的算力,而是获得“看懂世界”的能力。
而手机,可能是这件事最现实的起点。
第一财经《总编看博鳌》节目邀请到vivo AI和影像产品负责人,以及商汤科技联合创始人、大晓机器人董事长王晓刚,开启了关于“AI竞速下半场:感知决胜”的对话。
AI为什么还没有真正改变手机?
如果只看技术演进路径,手机本应是AI最先发生质变的终端。它拥有最广泛的用户基础、最完整的使用场景,以及最密集的数据入口,从语音、图像到位置与行为轨迹,几乎覆盖了人与数字世界交互的全部维度。
但现实却是,AI在手机上的表现始终停留在“有用,但不惊艳”的阶段。
“手机上的AI能力是存在的,但这些能力之间是割裂的,用户的交互方式并没有发生根本变化。”在vivo AI副总裁张飞看来,问题并不在于能力是否存在,而在于这些能力并没有形成一个统一的结构,也没有改变用户与设备之间的基本关系。
过去十年,智能手机逐渐固化出一套以应用为中心的使用路径:用户解锁设备、进入App、执行操作,再返回系统。这一模式将功能拆分为无数独立入口,也让用户始终处在“主动操作”的位置。AI的加入,并没有重构这一流程,而只是嵌入其中,成为某些环节的效率工具。
这也是为什么,大多数用户并没有真正感知到“AI时刻”的到来。
在vivo内部,这一问题也被反复思考,它被进一步拆解后,答案逐渐清晰。首先是任务结构的复杂性。与目标单一的系统不同,手机承载的是高度分散且不断切换的任务集合。沟通、娱乐、搜索与决策往往同时发生,并不存在一个统一目标。
“机上的任务是高度多样化、分散且多线程的。”张飞指出,这使得模型不仅要理解指令,还需要在复杂上下文中进行推理与调度,而这一能力直到近期才逐步成熟。
交互方式的滞后也是原因之一。尽管AI已经具备一定理解能力,但用户依然需要通过寻找入口、点击按钮、组织语言来驱动系统运行。
“用户仍然要去找入口、点按钮、发指令,这本质上没有变化。”张飞认为,这意味着人与机器的关系并未发生根本转变,真正的突破应当是由设备主动理解用户,而不是用户不断适应设备。
更深层的问题,则来自数据本身的分布方式。手机中的信息被封装在不同应用之中,每一个App都是一个相对封闭的系统。AI若要跨应用完成复杂任务,就必须打破这种边界,但这又不可避免地触及隐私与平台规则。
在这一背景下,vivo选择将更多智能能力部署在端侧。
“不是把数据带到智能那里,而是把智能带到数据所在的地方。”张飞的这一判断,走的是一种以本地理解为核心的路径,也重新定义了手机在AI时代的角色。AI不再只是应用的容器,而是一个能够整合信息、完成推理的智能中枢。
但即便完成这些调整,手机仍然缺少一项更基础的能力:对现实世界的理解。
这也是AI尚未真正改变手机的根本原因。
AI正在离开手机,走向现实世界
如果把AI的发展划分阶段,它正在经历一次关键的方向转移。
“AI 1.0依赖人工标注,AI 2.0依赖互联网数据,而AI 3.0将进入物理世界。”商汤科技联合创始人、执行董事,大晓机器人董事长王晓刚用这一划分描述了AI的演进路径。在这一框架中,当前的大模型仍然建立在“被数字化信息”的基础之上。
“智能是在与物理环境的交互中产生的。”他说。
这一判断意味着,仅依赖文本与图像训练的模型,虽然能够在表达与生成层面表现出色,但依然无法真正参与现实。它们可以解释世界,却无法行动;可以生成答案,却难以完成任务。
这也是为什么,今天的Agent可以处理复杂文档,却难以完成现实中的简单行为。寻找物品、判断情绪或应对动态环境,这些问题之所以困难,并不在于逻辑复杂,而在于它们发生在一个非结构化的世界之中。空间关系在变化,环境在波动,而力、触觉、摩擦等关键变量难以被标准化描述。
王晓刚以一个具体动作举例:抓起一瓶水。这一过程涉及重量判断、接触方式与角度控制,而这些因素在不同情境中不断变化。对于当前模型而言,这类信息几乎不存在于训练数据中。
在这样的背景下,从“理解信息”到“理解世界”,成为AI必须跨越的一道鸿沟。
它不仅要求AI能够理解物理规律,还需要具备对环境变化的预测能力,以及在不确定条件下做出决策的能力。这已经不再是模型规模的简单扩展,而是数据来源与训练方式的根本转变。
“我们需要第一视角的数据。”王晓刚指出,与互联网数据不同,这类数据来自人与环境的真实互动过程,包含连续的行为、空间关系与情境变化。只有在这样的数据基础上,AI才可能逐步建立起对现实的认知。
在这一过程中,手机的重要性开始凸显。它并非算力最强的设备,也不是执行动作的终端,但它是最贴近用户、最频繁参与现实互动的入口。作为一个随身设备,手机持续记录人与世界之间的关系,这使其在新一轮数据范式转移中占据关键位置。
张飞也从另一个角度强调了这一趋势。他认为,AI要进入具身智能阶段,就必须同时理解数字世界与物理世界,而后者是不可回避的基础。“AI真正需要知道的是,你是谁,你在哪里,你在做什么,你周围发生了什么。”
这也解释了为什么,影像能力在这一轮AI演进中,被重新放到核心位置。
影像成为AI理解世界的起点
在过去十年里,手机影像的竞争,本质是“拍得更好”。更高像素、更强防抖、更真实的色彩还原,构成了主要技术路径。但在AI语境下,影像的意义正在发生变化。
“影像是AI进入物理世界的一扇门。”张飞说。
这一判断背后,是影像能力的重新定义。
vivo 影像高级产品规划专家李卓指出,影像的核心价值正在从“记录”转向“获取信息”。随着能力增强,影像系统不再只是服务拍摄需求,而是开始具备对环境的分析能力。
他举了一个已经落地的例子:通过摄像头,系统可以实时识别环境结构,帮助视障人士理解周围空间,包括物体位置与相对关系。这种能力,本质上已经超出了传统影像的范畴。
“相机不再等你按快门,它在打开的一瞬间,就开始理解环境。”李卓的这句话,描述的是影像系统工作方式的改变——从拍摄后的处理,转向拍摄过程中的实时理解。设备开始结合环境信息,对用户行为做出响应,甚至参与到决策之中,从而使相机逐渐从工具转变为协作者。
这种变化,也在具体产品上得到体现。3月30日刚刚发布的vivo X300 Ultra,围绕影像能力进行了系统性升级。该机搭载行业最远的400mm增距镜,并配合专业兔笼等模块化设备,使手机在远距离拍摄与稳定性上进一步接近专业设备水平。
在视频能力方面,vivo X300 Ultra支持全焦段4K 120fps 10bit Log与杜比视界录制,并在防抖、对焦与高像素成像之间实现协同,形成更完整的动态影像体系。同时,其专业摄影机模式与视频调色能力,将拍摄与后期流程进一步整合,使移动设备逐步具备接近专业创作工具的工作方式。
这些能力的意义,并不仅仅在于“拍得更好”,而在于让影像系统能够捕捉更完整的环境信息。从空间结构到动态变化,再到声音采集(如“四麦收音系统”对环境声的处理),手机正在形成一个多维感知入口,为AI提供更丰富的现实数据。
李卓的判断是:“‘身临其境’会从形容词变成能力。”当图像不再只是静态画面,而成为可以被理解、被分析甚至被重建的信息载体时,影像也就成为AI进入现实世界的起点。
而在博鳌亚洲论坛这样的高密度信息场景中,这种能力也开始呈现出更现实的意义。对于媒体而言,报道不再只是记录发言与整理观点,还包括对现场环境、人物状态以及细节变化的捕捉。在这一过程中,手机逐渐从记录工具转变为生产工具。在今年博鳌论坛的现场,也出现了很多媒体使用vivo X300 Ultra及其增距镜、兔笼等拓展套件,跑新闻的场景。
以vivo X300 Ultra为代表的影像能力,使记者可以在复杂光线与远距离场景下完成稳定拍摄,并通过高规格视频与音频记录,直接获取可用于制作的内容素材。从会场发言到场外交流,从宏观场景到细节特写,一部手机即可覆盖大部分采集需求。
这种能力的提升,使移动设备在新闻生产流程中的角色进一步前移,也让“第一现场”的信息获取更加完整与高效。
如果说过去两年的AI,已经完成了对数字世界的重构,那么下一步,它必须进入现实。vivo给出的答案,已足够清晰,因为只有当世界被理解,AI才真正有机会改变它。
相关文章
2026-04-018阅读
2026-04-018阅读
2026-04-018阅读
2026-04-018阅读
2026-04-018阅读
2026-04-018阅读
2026-04-018阅读
2026-04-018阅读
2026-04-018阅读
2026-04-018阅读