对话后摩智能吴强:大模型90%计算需求将来自端边,存算一体是未来

资讯 » 新科技 2025-07-26

作者 | 金旺

来源 | 科技行者

由于打破了芯片设计的“存储墙”和“功耗墙”,实现了计算单元与存储单元的集成, 颠覆了冯·诺依曼架构的存算一体技术正在成为大模型时代设计AI芯片的一条全新技术路径。

不过,在大模型还未引爆全球的2020年,吴强基于存算一体技术创业做AI芯片时,当时的后摩智能并不被大家所理解。

后摩智能创始人、CEO吴强回忆起创业之初,当时被问到最多的是,“既然存算一体技术这么好,为什么别人没有做,只有你们在做?”

作为第一批将存算一体技术从学术界应用到工业界的人,被质疑在所难免。

不过,当四年后,以大模型技术为代表的人工智能新范式成为社会主流意识时,存算一体技术的优势开始显现,主流芯片厂商也开始进入这一领域。

这时的吴强需要面对的问题成了,“面对其他厂商的入局和竞争,后摩智能如何形成自己的护城河?”

就在WAIC 2025前夕, 后摩智能正式对外发布了后摩漫界M50,这颗面向端边大模型的AI芯片,就是吴强给出的答案。

破解大模型的计算瓶颈

2020年,在鲜有主流芯片厂商会提及存算一体计算架构时,在国内外头部科技厂商任职多年、负责过多个AI芯片项目的吴强决定创业,当时他为后摩智能选定的创业方向正是存算一体技术。

吴强之所以会选择这样一条路创业,有两个原因:

第一,吴强早年间在美国普林斯顿大学博士期间, 论文的研究方向就是高能效比芯片和编译器,自那时起他就知道,要真正解决“存储墙”、“功耗墙”问题,存算一体是一条必然路径;

第二,在英特尔、AMD、英伟达这样巨头林立的芯片领域, 要想参与到全球竞争中,就需要通过创新技术进行弯道超车。

于是,吴强带领后摩智能团队基于存算一体这一冷门技术路线开始研发AI芯片,到现在已经有四年多的时间。

后摩智能拿出第一颗存算一体芯片是在2023年。

2023年5月,后摩智能正式对外发布首款存算一体芯片鸿途H30,这款应用于智驾领域的存算一体芯片最高物理算力达到了256TOPS,典型功耗为35W,存算一体技术的高算力、高带宽、低功耗等特性首次显现。

然而,2023年下半年,智能驾驶领域已经格局逐渐趋于稳定,留给新入局者的机会已经不多。

由于后摩智能第一代AI芯片做得算力很大,算力大就意味着成本高,彼时低成本已经成为智能驾驶市场一大趋势,智能驾驶AI芯片的价格甚至达到了千元级。

在无法看到L3级,乃至更高阶自动驾驶的年代,拼算力成本成了市场上的主流声音。

吴强回忆称,“由于我们第一代芯片的算力太超前,和当时市场存在一个gap, 再面向智能驾驶领域造一颗心的芯片,将会错过这个市场的窗口期,我们在2023年开始思考转型。”

创业团队没有大公司的通病,转向并不算难,于是,后摩智能在2023年开始寻找新的机会。

2023年,ChatGPT已经火遍全球,中国大模型市场正在经历着百团大战,大模型已经成为了当下时代趋势。

当时的吴强发现,大模型中的Prefill算力非常密集,但是到了Decoding阶段,开始对带宽要求很高,所以 大模型既是算力密集型,又是访存密集型的AI应用。

这样的应用需求与存算一体计算架构的技术能力高度吻合,发现这样的市场需求后,吴强和他的团队非常兴奋, 在2023年年底决定转向,基于大模型的应用需求研发存算一体AI芯片。

在这个过程中,后摩智能团队投入大量资源深入研究了大模型芯片架构、设计、量化等问题,在过去两年里陆续在国际顶刊上发表了30多篇论文。

甚至其中一篇与北京大学合作的,关于在大模型推理架构中DRAM存算用的研究成果入选了2025 ISCA最佳论文奖。

这是吴强在国外读博士期间,每位学生都梦寐以求计算机架构国际顶级会议。

也是基于这两年的技术积累,在WAIC 2025期间,后摩智能两年磨一剑的后摩漫界M50芯片正式对外亮相。

大模型计算权重下放,90%需求在端边

说起来,M50并不是后摩智能面向大模型领域推出的第一颗AI芯片。

早在2024年6月,后摩智能就面向大模型领域推出了第一颗基于存算一体计算架构的AI芯片,后摩漫界M30。

这颗芯片首先应用到了中国移动的一体机产品中,并在2024年年初随着中国移动在MWC 2024上正式对外展出,当时基于后摩漫界M30运行60B大模型的效果超出了后摩智能团队的预期,这进一步坚定了后摩智能做大模型AI芯片的决心。

与此同时,中国移动旗下的北京中移数字新经济产业基金和上海中移数字转型产业基金后来也成了后摩智能的投资方。

锚定大模型AI芯片后,基于对大模型的深入研究,吴强又有了两个判断:

第一, 大模型的重心将逐渐从训练向推理侧迁移,未来大模型推理对AI芯片会有更多需求;

第二, 大模型将从云端智能向端边智能迁移,在未来端边云混合智能体系中,90%的数据处理需求将会来自端和边。

基于这两大趋势判断,后摩智能将下一代芯片,也就是这次发布的后摩漫界M50定位到了 端边大模型应用场景。

后摩漫界M50采用存算一体计算架构,芯片大小只有20×23mm,典型功耗进一步控制到了10W,单芯片算力最高可达160TOPS,配备最大48GB内存和153.6GB/s带宽,目前已经实现了7B/8B大模型25+Tokens/s的推理速度。

不过,后摩漫界M50不仅仅能够支持7B/8B大模型,据吴强在媒体沟通会上透露, 这款芯片已经完成了对70B参数的deepseek的适配,最大可以支持100B参数大模型。

这样的后摩漫界M50,是后摩智能过去两年的研发成果,而之所以这颗芯片能实现如此高的能效,是因为后摩智能在存算一体化计算架构上的技术突破,这又包括存算IP和IPU架构两个方面。

在存算IP上,后摩智能演进到了第二代,在权重加载电路、加法树架构、加法树物理实现、控制电路以及时序电路优、SRAM电路上都进行了全新的优化设计。

在此过程中,后摩智能团队就可测性、可靠性,以及存算成本、电源稳定性、面效比等方面都进行了深入研究,并将这些成果集成到了M50芯片上。

在IPU架构上,后摩智能同样向前迈进了一代,对于第二代天璇架构,吴强特别介绍了团队在以下两个方面进行的优化:

第一, 通过自适应计算周期压缩实现弹性加速。

在GPU中已经得到普遍应用的稀疏加速的技术原理是,如果某个权重为0,就可以直接跳过,以此实现计算加速,而如果这个权重不是0,GPU中的稀疏算力将会很难被利用起来。

相较而言,存算一体AI芯片是基于比特串行的计算,这就使得针对某个输入,不需要所有值都为0,而是只要比特位内有0就可以按照比特位进行优化,进行弹性加速。

第二, 浮点模型直接运行,提升应用效率。

基于第二代天璇架构M50运行的大模型,针对FP16的浮点模型可以直接运行,只有特殊场景下才需要做额外的量化工作,由此提升了模型的适配和应用效率。

为了更好地发挥出M50芯片的能力,后摩智能还为这代芯片重构了编译器工具,研发了 支持主流深度学习框架、能够自动搜索最优优化策略、提供原生浮点算力支持的后摩大道编译器。

此外,基于后摩漫界M50,后摩智能还同步推出了力系列M.2卡、力谋系列加速卡及计算盒子等硬件组合,形成了覆盖移动终端与边缘场景完整的产品矩阵。

AI终端潜力,开始加速释放

2022年11月30日,OpenAI正式对外发布了ChatGPT,作为大模型时代第一个超级应用,ChatGPT仅用了2个月就达到了1亿用户。

更为疯狂的是,2024年面世的deepseek,达到1亿用户量,仅仅用了两周时间。

这样的现象级大模型产品的出现,让吴强意识到, 大模型时代的产品底层逻辑已经改变。

互联网产品是通过连接产生价值,只有拥有一定用户量形成网络效应才能产生价值,而 大模型产品发展更快速,可以在很短时间能成长为超级应用,直接创造生产力,产生价值。

那么,后摩智能当下的目标商业市场是在哪里呢?

吴强给出的答案是: 消费终端、智能办公、智能工业、机器人。

这是吴强为后摩智能商业化发展制定的方向,也是后摩漫界M50最先落地方向。

这其中,在发布会上,吴强也进一步透露了,诸如 联想的下一代AI PC、讯飞听见的下一代智能语音设备、中国移动的5G+AI应用落地设备,都将是后摩智能面向端边大模型布局的后摩智能M50的意向客户。

值得注意的是,吴强同样看好如今处于风口上的具身智能市场,他告诉我们,“ 机器人对功耗更敏感,对AI芯片有更高要求,也是我们的机会之一。”

据悉,后摩智能如今已经在与机器人厂商合作,在具身智能领域进行提前布局。

· FIN ·

科技行者团队出品

阶跃星辰发布三代基础大模型、成立生态联盟,并提出了模型的“好用标准”

探寻魔都“引力场”:AI创新者为何在这片土地集体找到归属感?



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。