智东西AI前瞻(公众号:zhidxcomAI)
作者 江宇
编辑 漠影
智东西AI前瞻7月8日报道,昨日,阿里巴巴通义实验室正式开源其最新网络智能体WebSailor,该智能体在多个高难度任务评测中刷新了开源系统的最好成绩,成为首个在BrowseComp等基准上逼近闭源系统能力的开源方案。
WebSailor可在开放网页环境中自主跳转页面、查找信息、整合多源线索并完成推理,适用于处理路径不明确、问题模糊、需多步判断的复杂检索任务。
7月3日,WebSailor技术报告在Hugging Face Papers当日热度榜中排名第一,成为当天关注度最高的AI论文之一。
该项目的模型代码、训练方法与评测数据集也已同步在GitHub开源。
GitHub地址:https://github.com/Alibaba-NLP/WebAgent
一、评测表现:首次在BrowseComp任务中追近闭源模型
WebSailor-72B版本在三大公开评测集上表现突出:
1、BrowseComp-en:12.0%
2、BrowseComp-zh:30.1%
3、GAIA(信息检索子集):55.4%
其中,BrowseComp是由OpenAI发布的网页智能体评测集,覆盖1266个难度极高的检索任务,考察模型在开放网页上的搜索、筛选、整合和推理能力。
在BrowseComp等评测中,WebSailor在开源智能体中实现断层领先,超过DeepSeek R1等开源方案,并首次在多个指标上逼近Grok-3、Doubao-Search等闭源方案。
值得注意的是,尽管训练聚焦高难任务,WebSailor在面向初级问答的SimpleQA子集上也展现出泛化能力。
在该任务中,WebSailor-72B取得93.5%的准确率,超过包括WebDancer、WebThinker、DeepSeek等多种方案。
WebSailor在多个维度评测中均位列开源智能体第一,进一步缩小了与OpenAI DeepResearch等闭源系统的差距。
二、打造高不确定性任务集,提升Agent复杂推理能力
WebSailor的核心突破在于其完整的后训练(post-training)方案,贯穿数据生成、冷启动调优、强化学习三大阶段:
1、高不确定性任务合成
通义团队构建了名为SailorFog-QA的问答数据集,旨在模拟高不确定性、模糊路径的信息检索任务,采用以下方式生成问题样本:
通过“随机游走”模拟网页跳转行为,在真实网页中构建复杂知识图谱;利用“图结构采样 + 信息模糊化”处理,制造多跳、非线性、起点不明的问题,提升任务不确定性。
2、冷启动微调(RFT)
该智能体基于Qwen-2.5(3B、7B、32B、72B)系列模型进行初始化,并通过对专家路径的压缩重构,生成清晰的中间推理步骤,从而增强其在复杂任务路径中的可控性与稳定性。
3、高效强化学习算法:DUPO
WebSailor引入强化学习新算法Duplicating Sampling Policy Optimization(DUPO),采用双阶段动态采样策略:
RL前期:剔除过于简单的问题,集中训练高难度轨迹;RL训练中:重复采样困难轨迹结果,并加入当前批次以高效迭代。
该策略在提升效果的同时,将复杂Agent的强化学习训练速度提升2–3倍。
三、产品线布局:从基准构建,到原生浏览器智能体
WebSailor是通义实验室“Web智能体”系列的第三项重要发布:
WebWalker(2025年1月):主攻网页任务评测基准构建,提升评测标准化与复现性;WebDancer(2025年5月):关注自主检索Agent策略学习,强化信息搜集与自决能力;WebSailor(2025年7月):整合任务构建、调优与强化学习方法,首次在开源系统中实现对闭源系统的能力追近。
通义团队称,后续将继续扩展该系列,构建“基于浏览器的原生智能体框架”,适配更多开放式、跨模态的复杂推理场景。
结语:朝“开源版DeepResearch”迈进一步
从大规模任务合成到高效强化学习,从Benchmarks构建到模型开源,WebSailor正逐步进化。
虽然距离OpenAI等闭源系统仍有差距,但其在复杂任务上的大幅进展,正在为“开源Agent可用化”提供新的可能性。
如果说DeepResearch代表了闭源网络Agent的能力上限,那么WebSailor的诞生,或许意味着开源世界正开始接近那道分水岭。
相关文章
2025-07-090阅读
2025-07-090阅读
2025-07-090阅读
2025-07-090阅读
2025-07-090阅读
2025-07-090阅读
2025-07-090阅读
2025-07-090阅读
2025-07-090阅读
2025-07-090阅读