扔掉人工公式:快手EMER框架,用自进化的模型重构短视频推荐排序

资讯 » 新科技 2025-10-30




机器之心发布

机器之心编辑部

当你打开短视频 App,手指上下滑动的每一秒,背后都藏着一套决定 “你接下来看什么” 的排序逻辑。

过去十年,行业里的推荐排序大多依赖 “人工设计公式”—— 工程师们把 “用户会不会点赞”、“能看多久” 等指标,按经验分配权重、套进公式,算出每个视频的 “优先级分数”。

但这套模式正在遭遇瓶颈:有人喜欢 “短平快” 的搞笑视频,有人偏爱 “慢节奏” 的生活记录,一套公式怎么满足千万用户的个性化需求?当 “留存”、“时长”、“播放量” 等目标冲突时,比如推长视频能提升时长,却可能降低播放量,人工调权重又该如何平衡?

为解决这些问题,快手策略算法团队提出了一套全新框架 —— 端到端多目标融合排序 EMER。它用 “会比较、能进化的 AI 模型”,彻底替代了传统推荐排序,不仅在快手主 App 和极速版实现 “七日留存 + 0.23%~0.3%、停留时长 +1.2%~1.4%” 的显著提升,更给行业提供了一套可落地的 “智能排序” 解决方案。

那么,这一效果是怎么实现的?在快手发布的技术论文中,我们能找到完整答案。



论文标题:An End-to-End Multi-objective Ensemble Ranking framework for Video Recommendation链接:https://arxiv.org/pdf/2508.05093

一、让模型学会 “比较”,而不是 “单独打分”

在深入 EMER 的技术细节前,我们先搞懂推荐排序的 “行业常规操作”。

简单来说,工业界广泛应用的推荐排序模块范式是两阶段的,第一阶段通过大体量模型预估用户在多个维度上的满意度,第二阶段将多目标标量化作为最终排序依据,即多目标融合排序。工业界普遍采用的标量化方法是人工设计的启发式排序公式,把这些预估结果合并成一个 “最终排序分”,分数高的视频优先展示。

这套模式的优点很明显 —— 成本低、调整灵活、可解释性强。但缺点也同样突出:

个性化不足:一套公式覆盖所有用户,无法适配 “有人爱刷短剧、有人爱刷知识” 的差异需求。非线性能力弱:公式只能处理简单的线性关系,没法捕捉 “用户看了 A 视频后,更可能喜欢 B 视频” 这类复杂关联。多目标平衡难:当 “留存” 和 “播放量” 冲突时,只能靠工程师反复试错调权重,既耗时又难找到最优解。

过去的排序模型,本质是 “给每个视频打个独立的分,按分数排序”。快手提出的端到端多目标融合排序 EMER 的核心思路是 —— 排序的本质是 “比较”,得让模型看多个视频之间的相对好坏。

为了实现这点,EMER 从数据、特征、模型三个层面做了创新性的设计:

1、数据:给模型看 “全量候选”,而非 “个别样本”

传统模型只关注 “用户最终互动过的视频”(比如用户点赞了 A 视频,就只拿 A 视频当训练样本),相当于 “只看考试分数,不看考生在全班的排名”。EMER 则反其道而行:把用户一次请求中的所有候选视频(哪怕没被用户看到)都打包成一个训练样本。这样做有两个好处:1)解决 “曝光偏差”:避免模型只学过 “被推荐过的视频”,忽略那些没机会展示的优质内容;2)提供 “比较基础”:让模型能直接对比 “同一批候选里,哪个视频更适合用户”,和线上真实的排序场景完全对齐。

2、特征:给模型加 “相对位置信息”

光有全量候选还不够,EMER 还为每个视频增加了Normalized Ranks(original item rank/total number of candidate items )特征 —— 简单说,就是告诉模型:“这个视频在这一批候选中的排名是第几(从某单一维度的信号来看)”,让模型明确知道每个 item 在当前候选集中的相对地位。

3、模型:用 Transformer 捕捉 “视频间的关联”

为了处理 “多个视频之间的比较关系”,EMER 基于Transformer 的网络架构。本身 Transformer 天然就擅长处理序列和关系,它能显式地捕捉候选 item 之间的复杂关系,评估每个 item 对其他 item 的影响。最终,模型给出的得分,不再仅仅是 item 本身的质量分,更包含了它在当前上下文中的相对价值



二、怎么让模型知道 “用户满意” 吗?

解决了 “比较” 的问题,下一个难点来了:如何定义 “用户满意”?有人点赞算满意,有人不点赞但看完也算满意,甚至同一个人对 “搞笑视频” 和 “知识视频” 的满意标准都不一样。

在推荐系统领域,一个长期存在的挑战是如何构建一个有效的监督目标,以准确量化和优化用户满意度。由于用户行为的个性化和多样性,简单地用单一指标或绝对分数来衡量满意度是极其困难的。

EMER 用两套方案,把 “模糊的满意” 变成了 “可学习的目标”。

1、用 “相对满意度” 替代 “绝对分数”

不纠结 “这个视频的满意度是 80 分还是 90 分”,而是判断 “用户对 A 视频的反馈是否比 B 视频好”。EMER 定义了一套基于相对优势满意度 + 多维满意度代理指标的方法:多重正反馈(点赞 + 评论 + 转发)>单一正反馈(只点赞)>无正反馈。然后用 “Pairwise Logistic Loss” 训练模型 —— 简单说,就是让模型学会 “区分 A 和 B 哪个更让用户满意”,慢慢摸清不同用户的偏好差异。

2、用 “多维度满意度代理指标” 补全信息

只看用户的 “事后反馈” 比如看完点赞有缺陷:例如有些视频用户没刷到(即曝光偏差),有些视频反馈太少(即信号稀疏)。

EMER 的解决办法是:引入 “多维满意度代理指标”—— 也就是第一阶段大模型预估的各种 “先验信号”(Pxtrs)。提升某个信号的排序效果,就能提升相应维度的用户满意度,所有信号的排序效果同时提升,将共同促进整体用户满意度的提高。它不把这些信号简单合并,而是把每个信号都当成独立的训练目标,让模型同时优化 “观看时长排序”、“完播率排序”、“点赞率排序” 等多个维度。

这样做的好处是:既能解决 “事后反馈稀疏” 的问题,还能让模型兼顾 “即时反馈”(比如点赞)和 “延迟反馈”(比如复访),更全面地理解 “用户满意”,从而在排序时做出更精准的权衡和决策。

三、智能优化:让模型 “自我进化”,平衡多目标

推荐排序中最头疼的问题,莫过于 “多目标冲突”—— 比如想提升 “停留时长”,可能会推更长的视频,但这会导致 “播放量下降”;想提升 “播放量”,推短平快视频,又可能让 “留存率降低”。

过去,工程师只能靠人工调试权重;EMER 则给模型加了个 “自我进化” 模块 —— 优势评估器(简称 AE),让模型自己动态调整目标权重。



1、对比 “新旧模型”,自动调权重

不同于依赖静态权重配置的传统方法,EMER 能够根据当前模型相对于之前版本模型的性能表现,自动调整不同损失的权重。当某个目标表现下降时,优势评估器会增加其权重,促使模型集中优化;反之,则会减少其权重,去关注其他效果更差的目标。



简单来说,优势评估器会实时对比 “当前模型” 和 “上一版模型” 的表现。如果发现 “当前模型的播放量比上一版降了”,就自动增加 “播放量目标” 的权重,让模型重点优化。如果发现 “留存率已经涨得很好了”,就减少 “留存目标” 的权重,去关注其他没做好的指标。整个过程不需要人工干预,模型能根据业务效果实时调整,比人工调参更高效、更精准。并且以按请求级别的细粒度计算,确保模型能持续适应不同用户的个性化偏好和同一个用户随时间不断变化的行为。

实验证明,这种 “自我进化” 机制效果显著:对比 “固定权重模型”,EMER 不仅没出现 “时长涨但播放量降” 的情况,还实现了 “多指标全面提升”。在初版模型中,EMER 甚至成功融合了 78 个目标,且每个目标的表现都优于传统公式,这是人工调参完全做不到的。

这种 “自我进化” 的训练方案使得 EMER 具备了“学习如何学习”的能力,从而实现了持续和自适应的性能提升。

2、离在线一致性:解决 “解耦悖论”

做推荐模型时,很容易遇到一个怪象:离线测试时,模型各项指标都很好,但一上线,总互动量反而下降了。经过研究发现其背后的根源在于:离线优化的是 “单个视频的互动概率(pxtr)”,而线上业务追求的是“单位时间内的互动密度”。这完全是两回事。

离线训练目标:优化单个 item 的互动概率(pxtr),其目标是让用户对每个独立的推荐 item 产生互动的可能性最大化。在线业务目标:用户有限的会话时间内,最大化总互动次数。这意味着我们需要增加互动的 “概率密度”,即在单位时间内的互动效率。

为了缓解这个问题,EMER 提出了一个新指标 —— 单位时间互动概率(IPUT)。



过将优化目标从 pxtr 转化为 IPUT,这把模型的优化方向从 “让你对某一个视频更可能互动”,精准地调整为 “让你在一分钟里能产生更多次互动”,这一方法从根本上消除了 “解耦悖论”,极大地提升了离线训练和在线效果的一致性,为模型离线的高效迭代奠定了坚实基础。

四、落地验证:数据说话,用户与业务双受益

EMER 不是实验室里的 “理论模型”,而是已经全面落地快手主 App 和极速版单列场景的 “实战方案”。从实验数据来看,效果超出预期:

1、核心业务指标显著提升

此前,快手精排阶段采用人工设计的融合公式(FF)排序,通过对各 PXTR 进行变换后相乘得出视频分数。本次实验中,团队在快手极速版与主站 APP 中分别部署 EMER 模型进行打分,并开展线上 A/B 测试。实验结果显示,EMER 在核心指标如 LT、停留时长、播放次数及互动等方面均显著优于 FF 方法(下左图),且 LT 指标仍保持持续上升趋势(下右图)。



对比传统的 “人工公式(FF)”,EMER 在两个核心 App 中的表现显著。



为评估排序结果与各满意度维度信号之间的一致性,快手策略算法团队比较了不同融合方法输出的排序结果与多项 PXTR(如观看时长、有效播放、点赞、评论等)之间的 GAUC。结果显示,EMER 在大多数 PXTR 上取得最优的一致性表现,体现出其在多目标排序方面的综合优势。



2、跨链路复用效果明显

除了主场景,EMER 还适配到了快手端到端生成式推荐系统 oneRec 链路的奖励模型中。同样取得了亮眼成绩:App 停留时长提升 0.56%,七日留存提升 0.149%。该方法也已扩展至快手其他业务场景中进行试点。这说明EMER 不是 “单点方案”,而是具备跨场景复用能力的 “通用框架”。

3、消融实验:拆解 EMER 的 “核心能力”,少一个都不行!

为了搞清楚 EMER 模型里,到底是哪些设计在 “真正发力”,快手策略算法团队做了一组 “消融实验”—— 简单说就是 “逐个去掉模型的核心组件,看性能会不会掉”。实验分 “离线测试”(模型内部指标)和 “线上测试”(真实用户数据)两部分,结果很明确:EMER 的每个关键设计,都是提升效果的 “刚需”,少一个都不行。



表 1: EMER 和消融版本的离线 GAUC 比较



表 2:EMER 和消融版本的在线 A/B 效果比较

必须让模型 “学会比较”,单独打分行不通:EMER 的核心思路之一,是让模型能 “看到” 多个视频之间的关系。为了验证这个设计的重要性,他们构建变体模型 EMER-NoComp:不让它看多个视频的关系,只给每个视频单独打分。结果很明显:不管是离线的核心指标(GAUC),还是线上的用户数据(比如停留时长、播放量),这个简化版模型的表现都比原版 EMER 差。

“用户反馈” 和 “提前预估”,两个信号缺一不可:前文提到,EMER 构建了一套相对优势满意度 + 多维满意度代理指标的方法。为了看这两个信号的作用,他们分别构建 EMER-NoPost(移除后验信号)与 EMER-NoPrior(移除先验信号)变体。结果是:这两个模型的表现都比原版 EMER 差,尤其是去掉 “提前预估” 的 EMER-NoPrior,效果掉得更明显。

这很好理解:只看用户反馈,会漏掉很多 “用户没刷到的好视频”(比如视频没曝光,自然没反馈);只看提前预估,又会缺少 “用户真实体验的验证”。只有把两个信号结合起来,模型才能全面判断 “用户会不会满意”。

模型得 “自己调整权重”,固定权重会顾此失彼:EMER 有 “自我进化” 的机制,能根据效果自动调整 “不同目标的权重”。为了测试这个功能,他们采用固定权重训练:不给它自动调整的权利(比如不管效果怎么变,都让 “停留时长” 占 60% 权重,“播放量” 占 40%)。结果出问题了,虽然用户停留时长上去了,但播放量跌了 2.347%,转发跌了 8.418%,评论跌了 8.109%,典型的 “捡了芝麻丢西瓜”。后来还尝试着人工调整权重,结果还是不如 EMER 的 “自动调整” 效果好。

这说明:EMER 的 “自动调整权重” 不只是 “改个数字”,更是在帮模型 “找对学习方向”—— 避免某个目标 “一路狂奔”(比如只追求时长,忽略播放量),也避免某个目标 “躺平摆烂”(比如转发率一直跌却不优化),保证所有目标都能均衡提升。



图:loss 分布比较:EMER vs. 消融版本 EMER-NoEvolve

必须对齐 “离线训练” 和 “线上效果”,不然模型会 “纸上谈兵”:为验证离在线一致性以及 IPUT 的作用,他们做了个 “没 IPUT 的模型”(叫 EMER-NoIPUT)。结果显示:有 IPUT 的原版 EMER,离线指标和线上用户数据的 “匹配度” 很高 —— 离线算出来好的,线上实际效果也真的好;而没 IPUT 的模型,还是会出现 “离线好、线上差” 的情况。这说明:IPUT 帮模型 “找准了学习目标”—— 不再是 “纸上谈兵” 算概率,而是真正贴合用户的实际使用场景,这是保证模型 “有用” 的关键。



4、选对 “评估标准”,才能让模型往对的方向学

EMER 的 “自动调整权重” 功能,需要一个 “判断标准”:怎么知道当前模型比上一版好还是差?他们测试了三种不同的 “评估方式”,最终发现 DCG@K 效果最好,在几乎所有 GAUC 指标上都比另外两种强。所以,EMER 最终就用了 DCG@K 作为 “判断标准”,确保模型每次调整,都是往 “把好视频放前面” 的方向优化,而不是走偏。



五、总结

从 “人工调公式” 到 “AI 自进化”,EMER 的价值不仅在于 “提升了快手的业务指标”,更在于它为行业解决了三个长期存在的核心难题:

1. 用户满意度难定义:用 “相对优势满意度” +“多维满意度代理指标”,把模糊的需求变成可学习的目标。

2. 排序的本质是 “比较”,同一个请求内候选适配之间的比较关系是非常重要的,模型如何感知此类信息也是一个难点。

3. 模型的学习目标难定义,也意味着模型的评估 Metric 难设计。

目前,EMER 已经成为快手短视频推荐的核心排序框架,而团队还在持续探索 —— 比如如何挖掘 “更能代表用户满意” 的信号,如何进一步提升模型的个性化能力。对于行业来说,这套 “可落地、可验证” 的方案,或许能为更多企业的推荐系统优化,提供一份切实可行的参考。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。