微信AI团队,悄悄干了件大事,算力消耗暴降44%!

资讯 » 新科技 2025-11-06


智东西
作者 陈骏达
编辑 李水青

智东西11月5日报道,近日,腾讯微信AI团队发布的一篇论文在海外AI圈引发广泛关注。论文提出了一种名为“连续自回归语言模型(CALM)”的新颖架构。与传统Transformer相比,CALM直接将训练大模型所用的计算量减少了44%,推理时的计算量也减少了34%

CALM的核心逻辑是,将连续的K个token压缩成一个语义向量,并在生成时直接预测“下一个向量”而非“下一个token”。假设K=4,那么原本需要逐步生成4次的内容,现在只需1步即可完成,使其能在一次生成中输出更多信息,大幅提升效率。

这项研究的相关讨论在社交媒体平台X的阅读量累计已经超过100万次,在评论区引起热议。

提示词分享网站godofprompt.ai的联合创始人Robert Youssef认为,CALM或许就是AI领域下一次大的范式转变,彻底颠覆了所有大语言模型赖以构建的“下一个token预测”范式,让大模型不再逐字思考,而是以想法为单位进行思考,简直不可思议。这一方法如果能成功扩展,那么现有的LLM都将过时。


还有多位网友认为CALM提出的概念值得探讨,但关键是需要在更大规模的Scaling过程中获得验证。


然而,也有人质疑CALM的前景。这位网友称,CALM只是杨立昆的一个老旧想法,训练不稳定,基础很薄弱,且无法扩展,是一种“有缺陷的方案”。


CALM论文的作者均在微信AI团队任职,第一作者邵晨泽曾在中科院计算所智能信息处理实验室完成博士学业。这篇论文的其他作者包括Darren Li、Fandong Meng和Jie Zhou,其中,Darren Li是清华大学求真学院的在读学生。为方便后续研究,研究使用的预训练Autoencoder以及CALM的检查点均可供下载。


论文地址:

https://arxiv.org/abs/2510.27688

项目主页:

https://github.com/shaochenze/calm?tab=readme-ov-file

一、性能比肩同量级Transformer,训练计算量减少44%

那么,在与Transformer的对决中,CALM究竟表现出了何种优势?

在评估两者的性能前,CALM团队首先需要打造适合的评估工具。过去业内用来衡量语言模型预测质量的一个指标是困惑度(Perplexity),直观地说,它表示模型在面对真实语言数据时“有多困惑”——困惑度越低,说明模型越自信、预测越准确。

困惑度评估并不适用于CALM的架构。作者因此提出新的评价体系——BrierLM指标。这一指标源于经典的Brier Score,由气象学家Glenn W. Brier在1950年提出,用来评估天气预报的好坏。

BrierLM通过组合不同n-gram的Brier得分,提供了一个统一的、可比较的语言建模指标。它利用模型采样结果即可无偏估计预测质量,既能衡量准确性,又能惩罚过度确定性。

实验证明,BrierLM与交叉熵几乎线性相关,可作为困惑度的替代品,并适用于其他隐式生成模型。


CALM团队使用The Pile语料训练了多款CALM架构的模型,然后用WikiText-103数据集来测试模型的性能。

训练时,CALM团队分别打造了不同参数量的模型,分别为0.371B参数量的CALM-M、0.735B参数量的CALM-L和1.82B参数量的CALM-XL。

当K=4,也就是每个连续向量对应4个原始token时,CALM-M的性能略逊于0.281B参数量的Transformer-S模型,但CALM-M的训练计算量比Transformer-S少44%,推理计算量少34%,展现出更好的算力-性能平衡。随着模型变大,性能也稳定提升,就像普通Transformer一样。


CALM团队还研究了语义带宽K的作用。随着语义带宽K增大,计算需求线性下降,而但性能下降并不明显。

当K从1变为2时,模型所需的训练算力大幅减少50%左右;当K=4时,CALM实现了效率与性能的较好平衡;K=8时,其性能出现一定下滑。

CALM团队认为这是模型尺寸导致的。以后,随着模型尺寸的提升,CALM架构或许可以一次性预测更多token,从更大的语义带宽中受益。


CALM的作者们还比较了不同生成头的性能。能量模型单步生成性能最高,而且不需要迭代采样,一次就能生成结果。扩散与流匹配模型虽可行,但要么性能不佳,要么代价高昂。


二、从离散token到连续向量,语言模型如何驶入语义“高速公路”?

那么,CALM究竟为何要进行从“预测token”到“预测向量”的巨大转变呢?这一转变,又是如何让CALM以更低的算力需求,实现比肩Transformer的生成效果?

CALM的第一作者邵晨泽在其撰写的博客中,解释了打造CALM的原因。现代大语言模型好比一个“法拉利级”的引擎——它拥有数千亿参数,能够理解语义、执行复杂推理、生成高质量文本与代码。

然而,这一引擎却被限制在一条狭窄的乡间小路上,永远只能卡在第一档。这条小路就是自回归生成机制:模型一次只能预测一个离散token,无论引擎多强,吞吐量都会受到限制,这导致了模型推理速度慢、计算成本高等问题。

过去,人们试图通过扩大基本单位来“拓宽道路”。从字符级到子词级(subword token)的变化,确实提升了效率。

但如今,这条路径已触及“离散token的物理极限”:在一个典型的32K词表中,每个生成步骤的语义带宽约为15位,要想将带宽翻倍,词表规模必须指数级增长——这使得模型在计算上几乎不可行。换句话说,离散token的Scaling已经碰壁了。

如果离散token是瓶颈,那么我们就需要一种具有可扩展语义带宽的新型文本单元。CALM代表从离散到连续的变化,其核心思想就是让模型不再预测下一个token,而是预测下一个向量——一个压缩了连续K个token的语义信息。


这一改变相当于为大模型开辟了一条多车道的高速公路——每次生成能携带更多语义,显著减少自回归步数,从而大幅提升效率。

CALM的第一步是建立一个高保真自编码器(Autoencoder),在离散token与连续向量之间建立双向映射。

编码器的作用是将一段K个token压缩为一个连续向量,而解码器从该向量中重建出原始tokens。

通过交叉熵损失训练后,该模型能以99.9%的精度重构文本片段。论文指出,这是可行的:一个浮点向量的比特容量远高于一个离散token,足以存储多倍的信息。

然而,高精度重构并不代表模型的稳定性。若向量空间过于“脆弱”,轻微噪声就可能使解码器输出完全不同的文本。为此,作者引入了三项关键改进:

变分正则化(VAE):令编码器输出高斯分布,使潜空间更平滑;

KL裁剪(KL Clipping):防止潜变量塌缩到无效维度;

双重Dropout:对输入与潜向量加入噪声,迫使模型学习冗余且稳定的表征。

结果是一个既紧凑又稳健的连续语义表示:当K=4、潜向量维度为128时,模型在加入约0.3方差高斯噪声的情况下,仍能保持99.9%的重构精度。

这一语义压缩器为CALM奠定了坚实基础——让语言可以在一个可连续建模、可容错的向量空间中流动。

三、 怎么让模型预测下一个向量?靠“无似然建模”

有了向量化的语义序列,语言建模任务变成了预测下一个连续向量。然而,如何教会模型进行下一个向量预测,又成了新的挑战。

如今,几乎所有主流大模型都采用最大似然训练(Maximum Likelihood Estimation)——即通过softmax计算出“每个token出现的概率”,并最大化训练数据的似然值的做法。

这样的训练方式要求模型能在一个离散的词表中明确地为每个token给出概率分布,但在连续向量空间中,没有有限词表,softmax无法定义概率分布。

因此,CALM放弃了最大似然训练,转而采用无似然建模(likelihood-free modeling)。这种方法不再要求模型显式计算概率,改用间接目标函数,让模型学会生成与数据分布相似的样本。

简单来说,模型不再告诉你“这个词的概率是多少”,而是直接生成一个向量,让它尽可能接近真实的语义向量分布。

CALM的作者团队尝试了多种无似然方法(如 Diffusion、Flow Matching),但最终提出并验证了最优方案——基于能量评分(Energy Score)的生成头(generative head)。


▲CALM的模型架构

这一生成头接收Transformer的隐藏状态和一个随机噪声向量作为输入,在连续空间中预测下一个语义向量。通过优化能量得分,模型能够在不计算显式概率的情况下,学会生成既多样又符合语义规律的向量序列。

能量得分是一种严格正确的评分规则,不依赖概率密度,而以样本间距离衡量预测分布的好坏。它同时平衡两种目标:

(1)多样性项惩罚过度自信、鼓励多样化生成;

(2)保真项奖励预测与真实向量接近。

模型通过最大化能量得分,使其隐式分布逼近真实数据分布。为了实现高效训练,作者采用蒙特卡洛估计,仅需少量样本即可获得无偏梯度。

这种方法带来了两大优势。首先,不同于扩散模型需上百次采样,Energy Head一步即可生成下一个向量;其次,这一方法的通用性强,只需能采样即可训练,无需显式概率公式。

在推理时,CALM将预测向量传入预训练的解码器,还原出离散token,再经轻量MLP压缩输入到Transformer,实现完整的自回归循环。

在传统的LLM中,调整温度(temperature)是控制生成“创造力”的关键手段。模型在生成时会输出一组logits——也就是每个候选token的未归一化得分。通过将这些logits除以温度参数T,再经过softmax,就能得到新的概率分布。

然而,CALM没有logits。因此,其背后团队提出了基于拒绝采样与Bernoulli Factory理论的全新算法:

(1)当温度T=1/n时,只需抽取n个样本,若全相同则接受;

(2)对任意T,可分解为整数与小数部分并通过二阶段采样实现。

CALM团队还设计了批量近似算法,可显著提升效率且在理论上无偏差。这使得CALM及其他隐式模型能够像普通大语言模型一样实现可控生成。

结语:大模型探索Scaling新路径

未来,CALM的作者团队计划继续在架构和算法方面进行更多优化,包括设计更优的自编码器、开发更强大的架构以及提出更轻量级的采样技术。

他们还希望探索CALM的Scaling特性,验证一大关键假设:更大模型是否具备支撑更高语义带宽的必需容量。CALM的作者们认为,“语义带宽K”已成为继参数规模与数据量之后,大模型性能的第三个可扩展维度。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。