最近这个月谷歌已经火力全开,以惊人的速度推出一系列 AI 新品,从小型语言模型 Gemma 3,到强大的 Gemini 图像编辑功能,再到具身智能模型 Gemini Robotics..... 各种新品层出不穷。当地时间 3 月 25 日,谷歌又推出了其新一代 AI 模型 Gemini 2.5,再次向世界展示了其技术实力。这是继三个月前发布 Gemini 2.0 之后,谷歌再次升级其旗舰 AI 模型系列。谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 在官方博客中宣称,Gemini 2.5 是该公司“迄今为止最智能的 AI 模型”,代表着谷歌在“让 AI 更智能、更具推理能力”目标上的又一重大进展。
据谷歌官方表示,Gemini 2.5 被定位为一款“思考型模型”,将推理能力直接嵌入了模型中,它能够在回答问题前先进行思考分析,从而提供更准确、更深入的回答。与前代产品相比,谷歌通过显著增强基础模型和改进后期训练,使 Gemini 2.5 达到了全新的性能水平。Kavukcuoglu 解释道:“我们正在将这些思考能力直接构建到所有模型中,使它们能够处理更复杂的问题,并支持更强大、更具上下文感知的智能体。”
首个发布的 2.5 系列模型是 Gemini 2.5 Pro 实验版,它具备强大的多模态理解能力,可以处理来自文本、音频、图像、视频和大型数据集的输入,甚至能够理解整个代码仓库的结构和内容。这款模型目前提供 100 万 token 的上下文窗口,谷歌计划很快将其扩展到 200 万 token,这是目前 Gemini 实验模型中最大的上下文窗口之一,使其能够处理和理解更长、更复杂的内容。
在各项基准测试中,Gemini 2.5 Pro 的表现相当出色。它在大模型竞技场 LMArena 排行榜(这一指标衡量的是人类对模型回答的偏好度)上以显著优势位居第一。
在不使用工具辅助的情况下,Gemini 2.5 Pro 在“人类最终考试”(Humanity's Last Exam)数据集上获得了 18.8% 的成绩,创下业界新高。此外,该模型在 GPQA 和 AIME 2025 等数学和科学基准测试中也全面领先,超越了 Claude 3.7、Grok3、GPT4.5、DeepSeek-R1 等一众顶尖模型。
图丨基准测试结果(谷歌)
在各大社交平台,已经有许多用户进行了实测,表现确实足够出色。例如,从经典的小球碰撞测试来看,Gemini 2.5 Pro 与 o1 Pro 都表现不错。相对来说,Gemini 碰撞物理效果要更好,不过在最后却丢失了一颗小球(何况 Gemini 还是免费的)。
还有用户用一行简单的提示(“用纯 three.js,不下载任何资源或纹理,创建一个可以在浏览器中运行的飞机飞行模拟器游戏”),就成功让 Gemini 2.5 Pro 创建了一个完整的 3D 飞行模拟器,包括飞机控制、速度和高度显示等功能。
谷歌高级研究员 Jeff Dean 也在社交媒体上分享了 Gemini 2.5 Pro 的实际应用案例,特别强调了这款模型在编码和数学交叉领域的出色表现。他提到,仅通过“p5js to explore a Mandelbrot set”(使用 p5js 探索曼德布洛特集)的简单提示,Gemini 2.5 Pro 就能编写出完整的可视化代码。
此外,前不久在社交媒体爆火的用 Claude 生成 3D 对象的能力,Gemini 2.5 Pro 也成功实现了。有一位用户使用 Gemini 2.5 Pro 将一个简单的手绘生日蛋糕草图转换为 3D 可打印对象,并最终成功打印出实物。
图丨相关推文(X)
根据谷歌博客展示,Gemini 2.5 Pro 在创建视觉上吸引人的 Web 应用程序和智能体代码应用方面表现尤为出色。例如,它能够利用其推理能力,从一行提示中生成完整的视频游戏可执行代码。在专业代码评估基准 SWE-Bench Verified 上,使用自定义智能体设置,Gemini 2.5 Pro 获得了 63.8% 的得分,超越了除 Claude 3.7 之外的其他所有模型。
Gemini 2.5 Pro 目前已在 Google AI Studio 和 Gemini 应用程序中向 Gemini Advanced 用户提供,并将很快登陆 Vertex AI 平台。Google AI Studio 产品经理 Logan Kilpatrick 表示,Gemini 2.5 Pro 是“第一个具有更高速率限制和计费功能的实验模型”,谷歌计划在未来几周内公布 Gemini 2.5 系列模型的定价。
短短一个月内,谷歌已经数次证明了他们的实力。而在今年,谷歌计划单独投资 750 亿美元用于 AI 开发,这 750 亿美元还将诞生多少成果,值得我们保持期待。
参考资料:
1.https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#building-on-best-gemini
运营/排版:何晨龙
相关文章
2025-03-3117阅读
2025-03-3117阅读
2025-03-3117阅读
2025-03-3117阅读
2025-03-3117阅读
2025-03-3117阅读
2025-03-3117阅读
2025-03-3117阅读
2025-03-3117阅读
2025-03-3117阅读