GPU英伟达发布LPU芯片:AI推理的「加速器」来了

资讯 » 新科技 2026-03-19

当地时间 3 月 16 日,英伟达在加州举办了 GTC 2026 大会,发布了全新的 Vera Rubin 平台。虽然算力再破纪录的 Rubin GPU 依旧是全场焦点,但在雷科技看来,Vera Rubin 中的 LPU(Language Processing Unit,语言处理单元),同样值得大家的关注。



NVIDIA

我们先简单回顾一下 LPU 的「前世今生」:

严格来说, LPU 这一概念并非英伟达自己的创意。2016 年,前谷歌 TPU(张量处理单元)团队的核心成员创立了 Groq,后者在 2020 年就推出了用于大语言模型的 LPU 芯片。2025 年 12 月,英伟达收购了 Groq 的核心技术和技术团队,并在 2026 年的 GTC 上正式发布了英伟达的 LPU 芯片,用于 AI 推理加速。

那么是什么,让英伟达决定斥 200 亿美元巨资买下 Groq 呢?这还得从 LPU 芯片的功能和定位说起。

业内首个专为「推理」设计的协处理器,强在哪?

在大多数人的认知里,AI 芯片功能都差不多,毕竟 GPU、NPU 甚至是 CPU 都能跑推理,英伟达的 GPU 长期以来也是这种「全能型」选手。但在Vera Rubin 平台,LPU 并不直接用于通用计算。

简单来说,LPU 是大模型的「推理加速器」,它要用 SRAM 极高的显存带宽,解决大模型在生成回复时慢的问题。



NVIDIA

要知道在大模型的技术逻辑中,「AI 推理」的瓶颈往往不在于计算核心的算力上限,而在于显存带宽。以当前主流的 HBM(高带宽内存)方案为例,虽然 HBM 的带宽本身就比标准 DDR、GDDR 这些内存、显存要快,但其本质上是堆叠 DRAM,而 DRAM 的工作模式决定了其在读写延迟方面的短板。

相比之下,LPU 采用的是 SRAM 方案,从数据结构上绕开了 HBM 方案较高的延迟,让模型可以直接在缓存中进行推理。尽管 SRAM 在空间表现上不如 HBM,但对于 AI 推理这一应用场景,SRAM 的优势足以弥补其短板。

Agent 时代为什么英伟达急需 LPU

根据英伟达的介绍,基于 SRAM 方案的 LPU 每秒带宽高达 150 TB/s,能让 AI 之间通信的吞吐量从每秒 100 个 Token 提升到了 1500 个以上。这种源自数据传输底层的技术升级,就像给 AI 开了专门的「5G 网络」,让模型「直播」(边推理边输出)成为可能。

当然了,LPU 架构也有自己的短板。作为「空间换时间」的技术代表,SRAM 虽然读写速度极快、带宽极高,但其数据结构和成本决定了它不可能像 HBM 那样动不动就堆叠几百 GB 的容量。这也意味着 LPU 必须与 Rubin GPU 配合工作,无法独立运行大规模模型。



NVIDIA

但从另一个角度想,LPU 的出现其实就像当年的 NPU 一样,利用异构单元「各取所长」,让大模型知道哪些任务交给 GPU 去算,哪些实时交互交给 LPU 去跑。在雷科技看来,这种算力分流的模式,才是 LPU 最有价值的地方,也是前几年英伟达愿意重金买下 Groq 的关键原因。

可能有人觉得奇怪,就全球市场来说,英伟达早已控制了「头部算力」,GTC 2026 上也发布了 Rubin GPU,那为什么不继续走「绝对算力」的路线,要用 LPU 进行加速分流呢?

在雷科技看来,这种算力结构的变化,其诞生也和 Agent 时代的 AI 交互模式有关。以往我们用 ChatGPT、Gemini 或千问等 AI 服务,本质上都是单线操作的「回合制 AI」;在 AI 给出结果之前,我们不需要、也不能做下一个操作。

但在 Agent 时代,AI 需要在多个应用间执行超长的任务链,而这种「AI 间通讯」对延迟有着极高的要求。如果用传统的 GPU 跑推理,Token 生成速度可能只有每秒几十个。

在一个需要跨越数十步决策的长任务链中,这种延迟会成倍增加。而 LPU 的加入,将部分推理前置,用低延迟换来了「连续响应」的能力。也正因如此,雷科技认为 LPU 的出现,必然会推动 AI 算力体系搭建的新一轮转型。

国产厂商如何突围

从性能表现来看,Vera Rubin 平台、LPU 等概念的出现,确实又一次奠定了英伟达在 AI 领域的领先地位。但对于国内 AI 巨头来说,在短时间内跟进 LPU 架构其实并不现实——LPU 核心的高速 SRAM 颗粒高度对封装技术有较高的要求,在芯片行业产量朝着英伟达倾斜的背景下,国产芯片企业想建立自己的 SRAM 推理生态,从成本的角度看并不简单。

但这并不代表国产厂商在推理端无路可走。以阿里平头哥在 2026 年初上线的真武 810E 为例,真武 810E 采用了阿里自研的并行计算架构和 ICN 片间互联技术,将片间互联带宽提升至 700BG/s。



平头哥

百度的昆仑芯则从 XPU 架构上入手,将计算和通信并行处理,在上一组数据计算时就提前请求下一组数据。摩尔线程则选择了全功能 GPU 的路线,用一站式方案降低企业部署成本,提高 AI 服务器的综合性价比。

虽然在绝对吞吐量上,这些「曲线救国」的国产方案距离英伟达的 LPU 还有一定的差距,但凭借更好的 AI 用例适配,平头哥和昆仑芯在国内算力市场的影响力同样不容忽视。

从行业发展的角度看,英伟达 LPU 的面世,固然推动了 AI 架构优化的进程。但对于国产算力企业而言,凭借更低的网络延迟和更好的本地化,依旧有超车的机会。毕竟对 AI 这样典型的「黑箱用例」来说,用户其实并不关心 AI 背后的算力结构和运行逻辑。一个好用、易用、低成本的综合体验,才是国内 AI 市场真正看重的核心竞争力。

3月12日-3月15日,AWE(中国家电及消费电子博览会) 2026 盛大开幕!
海信、海尔、美的、TCL、创维、华为、追觅、石头、MOVA、雷鸟、韶音、小熊、九号等AI科技巨头,将在上海滩围绕“AI科技·慧享未来”主题,呈现AI与硬件特别是家电融合的新潮流。人人“养龙虾”,家电如何融入Agent能力?机器人到家,家电无人化走到了哪一阶段?全场景融合,“人车家”生态会碰撞出哪些火花?AI硬件大爆发,硬件厂商又整出了哪些花活儿?
在雷科技MCN总编辑罗超、核心主播“阿雷”领衔下,雷科技AWE报道团(10+人)奔赴上海展开现场报道,现已凯旋。欢迎在雷科技全平台获取相关内容。





免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。