2025年9月10日,上海的秋风中夹杂着一丝技术革命的炽热气息。
就在这一天,Arm将其全新的AI技术领导力峰会——“Arm Unlocked 2025”的亚洲首站设在了这座充满活力的东方都市。
这不仅是一场简单的技术交流,更是一次集结了顶尖科技公司、芯片合作伙伴及生态系统领袖的技术发布。Arm在会上正式发布了其面向移动终端的新一代CSS平台——Arm Lumex,为端侧AI体验带来全面优化与提升,并进一步释放终端场景的全部潜能。
(图源:雷科技)
雷科技此次也受邀来到活动现场,为大家带来现场、立体和一手报道。
Arm Lumex:名字变了,效率倍增
有的读者可能会问,Arm Lumex是什么?
想要了解这个问题,你需要先搞清楚什么是Arm CSS产品。
Arm CSS,全称Compute Subsystems(计算子系统),是Arm提供的一种“硬件全家桶”解决方案。
它是将Arm最新的CPU、GPU以及相关的系统IP(如互连总线、内存控制器)预先集成、配置并验证好,打包成一个完整的高性能平台。
对于芯片设计公司而言,直接采用CSS方案,就无需从零开始进行复杂的IP集成和验证工作。这能极大地缩短SoC的开发周期,降低研发风险,帮助合作伙伴更快地将搭载最新技术的产品推向市场。它本质上是一个高性能、高效率的“芯片半成品”。
(图源:雷科技)
而这次发布的Arm Lumex,便是包含新一代ArmC1 Ultra“超大核”与ArmC1 Pro“大核”CPU以及Mali G1-Ultra GPU,并支持SME2可扩展矩阵延伸指令集的全新CSS平台。
C位登场的,自然是支撑起Lumex的全新Armv9.3 CPU集群。
(图源:雷科技)
根据官方介绍,Lumex CSS平台支持3nm制程,实现了两位数百分比的CPU IPC性能提升,其中Arm C1-Ultra超大核相较上代Cortex-X925,单线程峰值性能提升25%、Arm C1-Pro大核,与上一代的 Arm Cortex-A725 CPU 相比,在相同主频下持续性能提升 16%,在同等性能下能效提高多达12%,在单线程和多线程性能上均实现了一次重要的跃迁。
除此以外,这次Arm还带来了适用于次旗舰移动设备的Arm C1-Premium核心和适用于可穿戴设备的Arm C1-Nano核心,前者的等面积效率更优,后者更是主打极致能效,厂商们可以根据自身需求灵活调整。
众所周知,Armv9架构本身就是专为AI和安全而设计的。在过去几年的演进中,Arm不断为其增添针对机器学习(ML)等领域的计算能力。
正因如此,这次Armv9.3在AI性能上也得到了大幅度的强化。它通过对底层微架构的深度优化,尤其是对SME2(第二代可伸缩矩阵扩展)指令的硬件级支持,为实际场景中的 AI 驱动型任务带来了显著的AI性能提升。
具体来说,就是AI性能提升高达五倍;语音类工作负载延迟降低4.7倍;音频生成速度提升2.8 倍。
(图源:雷科技)
举个例子,通过Arm、支付宝与vivo的三方合作下,大语言模型 (LLM) 的交互响应时间缩短了多达40%,现场展示的通义2.5B体验机就能很好地展现出这个效果。
全新的Arm CPU在AI计算能力上的飞跃,让实时的端侧AI推理成为现实,以往需要依赖云端才能完成的复杂AI推理任务,如今在设备端就能流畅运行。无论是更聪明的离线语音助手,还是能够实时理解画面的AI影像系统,都将得益于SME2带来的算力解放。
现如今,SME2已经广受业界领先生态伙伴的采用,包括阿里巴巴、支付宝、三星System LSI、腾讯及vivo,力求在本地实现更快、更安全且随时可用的智能体验。
(图源:雷科技)
作为图像核心的新一代Mali G1-UltraGPU,其表现同样突出:
在各类图形基准测试中,Mali G1-Ultra较前代产品实现了20%的性能提升,AI推理性能提升最高 20%,同时得益于全新的第二代光线追踪技术,其光线追踪性能相较前代提升了两倍,为《暗区突围:无限》、《原神》等主流游戏带来了全面的性能增强。
此外,Mali G1-Premium与Mali G1-Pro两款GPU,也为硬件资源受限的设备提供了更出色的性能与能效表现,能在更低的功耗下,为中高端设备提供持久且高效的支持。
Arm的AI观:旗舰设计为何要“AI优先”?
在Arm Unlocked 2025上海站峰会的主题演讲结束后,我们受邀参加了持续半天的技术分享会。
在这次分享会中,Arm终端事业部产品管理副总裁James McNiven和Arm 终端事业部产品管理总监Ronan Naughton为我们更深度地解读了Arm Lumex的技术价值。
James首先带我们回顾了行业发展所面对的挑战,从工艺节点/封装技术/发布周期带来的压力,到用户关注的游戏、性能和应用,都和如今的AI技术息息相关。
(图源:雷科技)
虽然AI被公认为最具颠覆性的新技术,但想要完全释放其潜力,尤其是在数十亿计的终端设备上实现普惠,正面临着严峻的挑战。AI对性能、功耗和安全性的极致要求,正在迫使整个半导体行业进行一次从硬件到软件的系统性重构。
而这,也就是为什么Arm Lumex平台会以“AI优先”的原因。
从设计之初,Arm Lumex就将AI和安全置于核心。本次峰会上亮相的全新Armv9.3 CPU和GPU,其设计的根本出发点,就是为了高效执行AI工作负载。
他特别强调了SME2技术的重要性,让CPU以远超以往的效率处理神经网络运算,是实现高能效端侧AI的关键,雷科技也在现场体验到了基于SME2实现的端侧语音生成0.3B、端侧文字交互2.5B以及实时翻译/瑜伽指导功能。
(图源:雷科技)
你别说,效果都挺惊艳的,特别是这个语音生成,蛮期待这些端侧应用落地的一天。
再来看看GPU方面的解析,Ronan表示,与前一代Arm Immortalis-G925 GPU相比,Mali G1-Ultra的光线追踪性能提升高达两倍,并在主流图形基准测试中,性能表现提升20%,全新引入的矩阵乘法单元 (MMUL) FP16 指令,更可加速如语义分割、去噪、深度估计、物体检测、语音识别和图像增强等端侧关键AI工作负载。
然而,强大的硬件只是故事的一半。
有与会者提问:目前AI生态面临的更大挑战在于软件层面,开发者们迫切需要一个简单、高效的方式来利用底层硬件的AI能力,而不是为每一款芯片都进行复杂的底层优化,Arm在这方面有做出什么努力吗?
James答道,Arm推出的KleidiAI,正是为了解决这“最后一公里”的难题。目前Kleidi适配了从Arm NEON到Armv9.3 SME2的扩展指令集,通过这款软件包,开发者无需成为硬件专家,也能确保自己的AI应用在Arm平台上跑得又快又省电,这极大地降低了AI技术的应用门槛。
(图源:雷科技)
雷科技在体验时也问了一下工作人员,“在云端AI算力如此强大的今天,Arm为何如此坚持大力投入资源,去提升终端设备上的AI处理能力?”
工作人员对此解释道,他认为端侧AI与云端AI并非取代关系,而是互补共生。将更多的AI计算放在设备端处理,不但能带来极致的响应速度与体验,更能保证用户的隐私与安全,而且寄希望于设备永远在线并连接云端进行AI计算是不现实的,高能效的端侧AI是实现万物智能的必由之路。
在我看来,整个AI时代的竞争,本质上是生态的竞争。
Arm的机遇在于,凭借其在半导体行业的核心地位和广泛的生态系统,他们不但可以提供高性能的IP,更是能够成为连接硬件创新与软件应用之间的“桥梁”,让科技的进步真正惠及每一个人。
说在最后
毫无疑问,AI的需求使得智能终端生态在过去的一年里迎来了新的爆发式增长,人们正在不停地尝试、开拓新的应用范例、探索新的硬件形态,寻找着能够为消费者带来更好体验的产品——
不管是软件还是硬件的。
个人认为,相较于以往用“Cortex-A/X/R/M”覆盖所有领域的做法,Arm如今的思路更为清晰:为不同的垂直市场,打造专属的品牌和技术平台。
与Arm Lumex一同浮出水面的,还有面向PC市场的Niva、面向汽车市场的Zena和面向物联网市场的OrbisCSS平台。这一系列动作,清晰地勾勒出Arm意图在每一个细分赛道上,都建立起无可撼动的技术领导力和品牌辨识度。
随着未来的AI生态继续发展,我们无疑将会看到更多基于Arm CSS平台打造的新一代智能终端产品,而AI生态的需求也将继续驱动Arm开发更高性能、更具效率的新产品。
Arm LumexCSS,正是他们为这个未来交出的第一份,也是最重要的一份答卷。
9月5日-9日,世界最大家电与消费电子展IFA2025在柏林盛大举办。
雷科技派出了史上最大规模海外报道团“雷科技IFA25报道团”飞赴柏林,对IFA2025进行现场、立体、一手报道。共输出40+内容,在雷科技300万微信粉丝矩阵、1000万新媒体矩阵传播,全网阅读量/播放量预估超500万。我们对IFA2025的报道,再一次得到了DeepSeek的AI认证“全网最强”。
期待26年1月CES,我们拉斯维加斯再见。
相关文章
2025-09-127阅读
2025-09-127阅读
2025-09-127阅读
2025-09-127阅读
2025-09-127阅读
2025-09-127阅读
2025-09-127阅读
2025-09-127阅读
2025-09-127阅读
2025-09-127阅读