谷歌深夜炸场:Gemini 3正式发布!自ChatGPT发布以来最激动人心的事件

资讯 » 新科技 2025-11-19


刚刚,谷歌Gemini 3正式发布,我的初步体验和第一感觉是这玩意完全超越GPT-5 和 Claude sonnet 4.5,强到离谱,编程和写作都达到了T0级别,可以说这是自从OpenAI 发布ChatGPT以来,最令我心跳不已的事件,现在就可以在Gemini App和 Google AI Studio中使用了

随手测试:直接看效果(更详细的测试随后几天奉上)

1.制作速度可调的电风扇svg


2.模拟弹力球从空中一层一层掉落并弹起的物理过程(目前我测过的只有Claude sonnet 4.5可以抽卡成功)


3.模拟核聚变过程并添加背景乐(这个是复现谷歌官方的)

官方的发布核心信息要点:

谷歌官方把Gemini 3定义为“通往AGI之路的又一大步”。它不仅在多模态理解上全球领先,更是谷歌迄今为止最强大的Agent(智能体)和“Vibe Coding”模型。

此次发布包含两个核心版本:Gemini 3 Pro(即日预览上线)以及增强推理模式的Gemini 3 Deep Think

与此同时,谷歌宣布Gemini 3即刻全面接入谷歌生态——从Search(搜索)到AI Studio,再到全新的Agent开发平台Google Antigravity

一起来看Gemini 3到底有多强。

数据屠榜:LMArena突破1501分

Gemini 3 Pro主打深度推理和多模态能力,在每一项主流AI基准测试中都大幅超越了Gemini 2.5 Pro


推理与数学:

LMArena Leaderboard:以1501 Elo的突破性得分登顶。

Humanity’s Last Exam(人类最后一次考试):在不使用工具的情况下得分为37.5%,展现出博士级推理能力

GPQA Diamond:得分91.9%

MathArena Apex:达到23.4%,确立了前沿模型在数学领域的SOTA(State-of-the-art)新标准

多模态与事实性:

MMMU-Pro:81%。
Video-MMMU:87.6%,重新定义多模态推理。
SimpleQA Verified:72.1%(SOTA),在事实准确性上取得重大进展。

官方强调,Gemini 3 Pro不再是简单的问答,而是能够理解语境和意图,“不仅能读懂文字和图像,更能读懂空气(reading the room)”。它可以摒弃陈词滥调,提供真知灼见,甚至能通过生成代码将晦涩的科学概念转化为高保真的可视化效果

Deep Think模式:推理能力的阶跃

除了Pro版本,谷歌还祭出了大杀器——Gemini 3 Deep Think

这是一种增强推理模式,旨在解决最复杂的难题。测试数据显示,其性能进一步超越了本就强悍的Pro版本:


Humanity’s Last Exam:41.0%(无工具)

GPQA Diamond:93.8%

ARC-AGI-2:取得了前所未有的45.1%(含代码执行,ARC Prize Verified),证明了其解决新颖挑战的能力。

Deep Think模式将在未来几周内向Google AI Ultra订阅用户开放。

Google Antigravity:重塑开发者体验

随着Gemini 3的发布,谷歌推出了全新的Agent开发平台——Google Antigravity

这不只是一个AI IDE,它将Agent提升到了核心地位

自主权:Agent拥有对编辑器、终端和浏览器的直接访问权限

能力:利用Gemini 3的推理和工具使用能力,Agent可以自主规划并执行复杂的端到端软件任务,同时自我验证代码

模型组合:该平台不仅集成了Gemini 3 Pro,还紧密耦合了最新的Gemini 2.5 Computer Use模型(用于浏览器控制)和顶级图像编辑模型Nano Banana(Gemini 2.5 Image)。

在编码能力基准测试中,Gemini 3同样表现出色:

WebDev Arena:1487 Elo,位居榜首。

SWE-bench Verified:76.2%,大幅超越2.5 Pro,这一项没有超越Claude sonnet 4.5

Terminal-Bench 2.0:54.2%,展示了通过终端操作计算机的能力。

全能助手:从学习到规划

Gemini 3不仅面向开发者,更旨在帮助普通用户“学习、构建和规划一切”。

学习(Learn):

利用100万token的上下文窗口,它可以综合处理文本、图像、视频、音频和代码

示例: 它可以解读不同语言的手写食谱并整理成家庭烹饪书;通过分析匹克球(Pickleball)比赛视频,生成针对性的训练计划。

搜索进化: 在Search的AI模式中,Gemini 3支持生成式UI体验,能根据查询即时生成交互式工具和沉浸式视觉布局

规划(Plan):

Gemini 3在长时程规划上取得了长足进步

Vending-Bench 2测试: 该测试要求管理模拟自动售货机业务。Gemini 3 Pro在全年的模拟运营中保持了一致的决策力,未偏离任务,并带来了更高的回报,位居榜首

这由意味着它能更好地处理预订服务、整理收件箱等现实生活中的多步骤工作流

谷歌宣布,这是首次在发布首日就将新一代Gemini模型引入搜索(Search)。

具体推出计划如下:

普通用户:Gemini App及Search中的AI模式(针对Google AI Pro和Ultra订阅用户)即日起可用

开发者:通过Google AI Studio、Google Antigravity、Gemini CLI及Vertex AI访问

企业用户: 通过Vertex AI和Gemini Enterprise访问。

Deep Think模式:需等待安全评估,预计数周后向Ultra订阅用户开放。

劈柴哥表示,过去两年,AI Overviews月活已达20亿,Gemini App月活超6.5亿。Gemini 3的发布,标志着谷歌以“全栈式AI”策略,正式将Gemini部署到了谷歌的每一个角落

参考:

https://blog.google/products/gemini/gemini-3/?utm_source=x&utm_medium=social&utm_campaign=&utm_content=-development



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。