谷歌AI狂飙突进的两年:从追赶到领跑,它还是没摆脱焦虑

资讯 » 新科技 2025-03-28

2025 年 3 月 25 日,谷歌宣布了其最新 AI 模型 Gemini 2.5 正式推出,再度刷新了行业多项基准测试记录。这已是谷歌在短短三个月内发布的第二个大型 AI 模型,也是其近一个月以来一系列技术突破的延续,其野心和技术进步让整个科技圈为之侧目。谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 宣称,Gemini 2.5 是该公司“迄今为止最智能的 AI 模型”,代表着谷歌在“让 AI 更智能、更具推理能力”目标上的又一重大进展。

回望两年多前,2022 年年底,形势却截然不同。当时,OpenAI 发布 ChatGPT 引发全球轰动,谷歌内部陷入罕见的恐慌。一家在 AI 基础研究领域长期领先的科技巨头,突然发现自己在面向大众的 AI 产品竞争中落后了。如今,Gemini 2.5 模型刚刚发布,在大多数基准测试中领先竞争对手。谷歌似乎已经完成了反超,或者至少已经达到了前列,但在谷歌自己看来,挑战可能远未结束。

在 2024 年 12 月 18 日的 2025 战略会议上,谷歌 CEO 桑达尔·皮查伊(Sundar Pichai)告诉员工们:“我们已经走过两个充满变革的年头。”他说,“2025 年将是至关重要的一年。我需要大家内化紧迫感,加快公司运转速度。竞争正在激烈变化,我们的主要业务也面临着前所未有的挑战。”

转身的大象:ChatGPT 冲击下的谷歌百日行动

回顾 2022 年 12 月,ChatGPT 横空出世时,谷歌内部的震动远比外界想象的更为剧烈。皮查伊甚至请回了已淡出管理层的联合创始人拉里·佩奇和谢尔盖·布林,重新审视公司的 AI 战略。

“这是 2016 年以来最严峻的战略挑战。”一位谷歌前高管告诉媒体,“皮查伊七年前宣布谷歌将成为‘AI 优先’的公司,而现在我们却在最重要的 AI 突破中落后于人。公司上下都感到一种危机感。”

讽刺的是,ChatGPT 背后的技术基础——Transformer 架构——正是由谷歌研究人员在 2017 年发明的。而且,谷歌早在两年前就已宣布类似的技术 LaMDA,却未能及时将其推向市场。ChatGPT 的成功证明了谷歌一直在顾虑的风险——AI 模型可能产生事实错误或不适当内容——并不足以阻止这项技术的大规模应用。

图丨八位 Transformer 的作者(Financial Times)

皮查伊在 2023 年初召集了一系列紧急会议,最终,公司确立了一个代号为“代码红”的计划:在 100 天内推出一款名为 Bard 的 AI 聊天机器人,由 Google Assistant 负责人 Sissie Hsiao 领导。

“质量优先,但要快。”Hsiao 对团队如此要求。

为了组建这个团队,谷歌从公司各个部门抽调了约 100 名顶尖工程师,命名为“Team Bard”(以谷歌新聊天机器人的代号命名)。这些员工被告知:你们就是 Bard 团队,扮演一切需要的角色。与此同时,2023 年 1 月,谷歌宣布了公司历史上首次大规模裁员,裁掉约 12,000 个工作岗位,约占当时员工总数的 7%。这一举措更加剧了内部的紧张气氛。

图丨 Sissie Hsiao(Google)

“没有人确切知道接下来该怎么做才能保住工作。”一位前工程经理回忆道。有些员工担心如果不加班,他们很快就会失业。“这个项目感觉像是公司未来的转折点。我们的会议经常延续到深夜,大家都感到肩负着巨大的责任。”

与谷歌以往的产品开发流程不同,Bard 项目打破了传统的部门界限。来自搜索、Assistant、DeepMind 等不同团队的约 100 名工程师被集中在一起。计算资源被优先分配给该项目,有报道称某些数据中心几乎达到了电力使用的极限。

为了加速开发,谷歌还调整了其通常严格的产品审查流程。负责任创新团队——通常花费数月时间评估 AI 系统潜在偏见和问题的团队——被要求在严格的时间框架内工作。一些前员工透露,当团队提出可能导致延迟发布的问题时,这些担忧有时被搁置一旁。

技术挑战也随之而来。Bard 基于 LaMDA 模型构建,但需要更新其知识库并添加新的安全措施。早期测试显示,它仍然存在较大的“幻觉”问题——生成听起来合理但实际上不准确的信息,而且,模型有时还会产生含有刻板印象或有害内容的回复。

谷歌动员了约 8 万名员工参与测试,试图在发布前发现并解决尽可能多的问题。但时间压力导致他们不可能解决所有问题。于是,谷歌决定将 Bard 标记为“实验”,希望这种定位能降低用户期望,减轻可能的声誉损害。

2023 年 2 月,情况变得愈发紧急。微软宣布将 OpenAI 的技术整合到 Bing 搜索引擎中,这直接挑战了谷歌的核心业务。谷歌决定抢先一步,在微软公告前一天宣布 Bard 的有限公开测试。

然而,随之而来的是一场公关灾难。2023 年 2 月 6 日,谷歌宣布 Bard 即将面向公众开放测试,但在演示视频中,Bard 错误地声称詹姆斯·韦伯太空望远镜首次拍摄到太阳系外行星的照片。

图丨相关新闻(Fortune)

尽管 Hsiao 认为,这只是对谷歌来说是一次无妄之灾,因为 Bard 被训练成根据谷歌搜索结果来证实其答案,而它很可能误解了美国宇航局博客上宣布天文学家“首次”使用詹姆斯·韦伯望远镜拍摄系外行星的公告,何况 ChatGPT 在当时也经常出错,但这个错误还是导致谷歌母公司 Alphabet 市值在次日蒸发约 1,000 亿美元。

随后,谷歌加倍投入 Bard 项目,增加了数百名员工。皮查伊开始每天查看团队的 Google 文档,关注程度远超过以往产品。

2023 年 3 月,OpenAI 发布 GPT-4,进一步扩大了领先优势。一周后,谷歌全面推出 Bard,但业界评价褒贬不一。如皮查伊后来在接受《Hard Fork》播客采访时所承认的,谷歌当时就像是开着一辆“改装的思域”与“更强大的赛车”竞赛。他们需要一个更好的引擎。这个引擎,就是即将诞生的 Gemini。

反攻之路:Gemini 家族的崛起

GPT-3.5 和随后 GPT-4 的出现,不仅暴露了谷歌在消费级 AI 产品上的滞后,也促使公司重新思考其 AI 研究架构。长期以来,谷歌在 AI 研究领域维持着两个相对独立的精英团队:英国伦敦的 DeepMind 和美国加州山景城的 Google Brain,这种双轨制结构既有优势也有局限性。

“这种分散的研究结构在特定时期是有价值的,允许不同的创新路径并行发展。”一位谷歌 AI 战略高管解释道,“但面对 OpenAI 这样整合度高的竞争对手,我们需要重新评估这种方法的效率。”

公司内部的一些声音早已呼吁改变。James Manyika 是一位来自英国牛津大学的机器人专家,他于 2022 年初加入谷歌担任技术和社会高级副总裁。据说他在 ChatGPT 公开前几个月就已经向皮查伊建议,谷歌对 AI 的犹豫态度对公司不利。两个世界级的 AI 研究团队分别运营,耗费宝贵的计算资源追求不同目标——这种方式需要改变。

2023 年 4 月,谷歌宣布了一项重大组织变革:将 DeepMind 和 Google Brain 合并为 Google DeepMind(GDM)。这一决策不仅是为了应对竞争压力,也是为了汇集最优秀的人才和资源,共同开发下一代 AI 技术。

德米斯·哈萨比斯(Demis Hassabis)被任命为新合并单位的 CEO,哈萨比斯一直以其远见卓识著称,“他梦想着有朝一日利用 AI 治愈疾病的可能性”。相比之下,谷歌大脑的领导者杰夫·迪恩(Jeff Dean)更专注于能够迅速应用于谷歌产品的技术创新。

图丨德米斯·哈萨比斯(Google)

也因此,“选择哈萨比斯领导合并后的团队,向业界和内部员工传递了一个明确信号:谷歌不仅仅关注短期商业利益,也在为 AI 的远期发展布局。”一位接近决策层的前谷歌高管表示。

新团队面临的首要挑战是协调不同的工作文化和方法。DeepMind 长期以来就像一支纪律严明的军队,有着清晰的指挥链和集中化的决策过程。而 Google Brain 更倾向于分散式创新,研究人员拥有更大的自主权。这种文化差异在初期引发了一些磨合问题,但也带来了互补优势。

在山景城,GDM 入驻了一座名为 Gradient Canopy 的新型超安全建筑,与皮查伊的办公室位于同一楼层。公司联合创始人谢尔盖·布林成为常客,定期参与技术讨论。打破公司以往常规的是,大多数其他谷歌员工不被允许进入 Gradient Canopy,他们也无法访问关键的 GDM 编程代码。

这种前所未有的安全措施引发了一些内部争议,但管理层认为这对保护核心技术知识产权至关重要。

“这是一场人才和知识的竞赛,”一位参与安全策略制定的前谷歌员工解释道,“我们需要确保关键创新不会过早泄露。”

随着新项目的资源需求增加,谷歌其他 AI 研究部门,特别是那些专注于医疗保健和气候变化等领域的团队,开始感受到计算资源紧张的压力。公司也收紧了研究论文发表政策,尤其是涉及生成式 AI 核心技术的论文,这引发了一些研究人员的不满。

“公司需要在开放学术交流和保护商业利益之间取得平衡。”一位谷歌研究主管在内部会议上表示,“这是一个艰难但必要的权衡。”

在技术层面,Gemini 的开发过程也并非一帆风顺。当系统规模扩大 10 倍时,原有的许多假设和方法都不再适用。谷歌机器学习、系统和云 AI 副总裁 Amin Vahdat 成立了一个专门的危机应对小组,专注于解决大规模训练过程中出现的各种技术问题。

与此同时,负责任 AI 团队也在紧锣密鼓地评估新模型的安全性和伦理影响。他们发现,在医疗建议和处理潜在骚扰内容方面存在特别需要改进的领域。模型也会对图像中的人做出无根据的推断,例如在被问及“这个人有什么教育水平?”等问题时。

尽管团队努力解决这些问题,但时间压力意味着无法全面预测和测试公众可能如何使用或滥用新模型。这种情况下,该公司决定采取渐进发布策略,首先向有限用户群推出,然后根据反馈进行调整。

2023 年 12 月,谷歌终于发布了多模态大模型 Gemini 1.0。哈萨比斯亲自主持发布会,宣布这是谷歌“迄今最先进、最强大的 AI 模型”。Gemini 1.0 提供三种规模:Ultra(超大模型)、Pro(通用型)和 Nano(移动端轻量版)。

Gemini Ultra 成为首个在 57 门学科的 MMLU 考试中成绩超过人类专家的模型(得分 90%,人类专家 89.8%)。在多项测试中,Gemini 全面超越当时的 GPT-4 等竞争对手。谷歌开始重获信心,股价也有所回升。

图丨 Gemini 1.0 Ultra 的基准测试结果(Google)

哈萨比斯在伦敦办公室举行了一个小型庆祝活动,但他承认自己“不太擅长庆祝”,总是迅速将注意力转向“下一件事”。于是,团队再次投入到模型的改进和开发工作之中。

到 2024 年中期,谷歌发布了 Gemini 1.5 系列,进一步提高了模型的能力,特别是其处理长文本的能力。Gemini 1.5 Pro 的上下文窗口从原来的 100 万 token 扩展到 200 万 token,远超当时市场上其他任何模型,使得 Gemini 能够分析整本书籍或完整视频内容,也为知识密集型应用开辟了新可能。这一点,在当时的科技圈内引起了不小的关注,而这一差异化的特性,也为 Gemini 赢得了不少用户。

更大的突破出现在 2024 年 12 月,谷歌推出了 Gemini 2.0 模型。这一代模型在能力上取得了相当大的进步,其轻量级的入门模型 Gemini 2.0 在一些基准测试上不仅超越了上一代的旗舰 Gemini 1.5 Pro,也超越了 OpenAI 的 o1-Preview、o1-mini,甚至它还免费向用户开放使用。而且,这代模型还具备原生多模态生成能力(可直接输出图像、音频)和工具使用接口,能够自主调用插件执行复杂任务,这种能力也为不久后谷歌的进一步的动作做好了准备。

能力上的提高很快就得到了实质性的反馈,在 OpenRouter 平台上的 API 调用情况显示,在 Gemini 2.0 发布不久之后,它很快就从各类模型中脱颖而出,成为被调用次数最多的模型。

(OpenRouter)

就在最近,谷歌又发布了 Gemini 2.5,被谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 称为“迄今为止最智能的 AI 模型”。Gemini 2.5 Pro 在推理、编码、数学等各项能力上追平或超越了包括 Claude 3.7、Grok3 和 GPT4.5 在内的一众顶级竞争模型。如今,谷歌已经毫无疑问地在与 OpenAI、微软等对手的竞争中,让它的脚步越走越稳。

全面整合:让 AI 无处不在

与此同时,谷歌开始将 Gemini 模型整合到几乎所有产品中。特别是在搜索和智能代理这两个核心战场上投入了最大力量。

搜索是谷歌的核心业务,也是其最大的收入来源。2024 年 5 月,谷歌推出了 AI Overviews 功能,这是对搜索体验的根本性变革。当用户提出问题时,AI 会生成一个简洁的摘要回答,直接显示在搜索结果顶部,无需用户点击进入其他网站。这不仅改变了用户获取信息的方式,也间接影响了整个互联网的内容生态。

“这是谷歌搜索二十五年来最重大的变革之一。”负责搜索的副总裁 Elizabeth Reid 表示,“我们不再只是提供链接,而是直接解答问题。”里德在接受媒体采访时透露,这一转变的背后是谷歌对搜索本质的重新思考。“人们对搜索的期望正在变化,他们希望它能像一个无所不知的朋友一样,随时可以咨询。”

尽管中途还是遇到了提供错误答案等风波,谷歌并未放弃这一方向。2025 年初,它推出了 AI Overviews 的增强版“深度研究”(Deep Research)功能,允许用户进行更加深入的探索。当用户提出复杂问题时,系统会首先制定一个研究计划,然后分步骤搜索相关信息,最终生成一份全面但易读的报告。

2025 年 3 月,谷歌开始面向部分高级用户测试“AI 模式”(AI Mode),这是一个专门的搜索标签页,提供类似 ChatGPT 的对话式搜索体验。用户可以提出问题,然后通过自然对话方式探索复杂话题并提出后续问题,而不必重新开始搜索。内部测试显示,在这一模式下,用户查询的长度平均增加了一倍,反映出更深入的探索需求。

图丨谷歌搜索的 AI Mode(Google)

谷歌产品副总裁 Robby Stein 称:“传统的关键词搜索对于复杂查询来说往往力不从心。AI 模式让用户能够像与专家交谈一样探索主题,这对于学习新知识或做决策特别有用。”

谷歌还为搜索引入了全新的规划能力。用户可以要求搜索引擎提供餐饮和旅行建议。例如,输入“我想去纽约,预算 2,000 美元,喜欢艺术和美食”,系统会生成一份包含酒店、餐厅、景点和活动的详细行程建议。这些功能在用户授权的情况下,还能分析用户的搜索历史,提供更加个性化的建议。

搜索部门的副总裁 Pandu Nayak 总结道:“搜索不再是一个单向的信息检索工具,而是一个持续学习用户需求的对话伙伴。这种演变反映了信息获取方式的根本性转变,也体现了谷歌对 AI 时代搜索本质的重新定义。”

另一方面,在谷歌的 AI 愿景中,代理(Agent)技术是最具野心的部分。与只能在封闭环境中回答问题的聊天机器人不同,AI 代理能够理解、推理并采取行动,实现更复杂的任务。

Project Astra 是谷歌最重要的通用 AI 代理项目。在 2024 年 5 月的 I/O 大会上首次亮相后,Astra 迅速进化。到 2025 年,它已能够理解视觉输入、分析实时环境并进行复杂的多步骤规划。在一个演示中,用户可以用智能手机摄像头扫描书架,Astra 能识别所有书籍并建立数据库以供后续查询。

图丨 Project Astra 演示视频(Google)

“想象一个真正了解你,能跨多个任务和领域工作的代理。”哈萨比斯描述道,“这就是 Astra 的愿景。”哈萨比斯相信,AI 代理将成为技术的下一个重大飞跃,就像互联网和智能手机一样改变人们的生活方式。

2024 年 12 月,谷歌推出了三款基于 Gemini 2.0 的专业化 AI 代理产品,标志着公司正式迈入“AI 代理时代”。除了升级版的 Project Astra,谷歌还带来了浏览器操作工具 Project Mariner 和专为软件开发者设计的 AI 编程助手 Jules。

3 月,谷歌还推出了 Gemini Robotics 和 Gemini Robotics-ER 两个新模型,让 AI 代理从数字世界迈向了物理世界。DeepMind 演示了搭载 Gemini Robotics 的机器人能听懂人说的指令并做出相应动作:机械臂能折纸、递蔬菜、小心地把眼镜放进盒子里。这标志着谷歌在“具身智能”领域迈出了关键一步,也向哈萨比斯长期以来的愿景靠近:让 AI 在现实世界中感知和行动。

(DeepMind)

除了搜索和代理,谷歌还将 Gemini 整合到其生态系统的各个角落。包括 Gmail、Google Docs 等一系列应用乃至 Android 系统,基本都实现了 AI 的接入。

为了推动这一全面整合,谷歌进行了多次内部重组。2024 年,Gemini 产品团队从搜索部门转移到 DeepMind,这是 DeepMind 首次直接负责一个面向消费者的产品。2025 年初,AI Studio 也从 Cloud 部门移至 DeepMind,目的是将模型部署与开发集中在同一组织内,加快创新速度。

截至 2025 年 3 月,超过 20 亿用户已通过各种谷歌产品体验到 Gemini 的功能,开发者数量超过 150 万。皮查伊设定了雄心勃勃的目标:到 2025 年底要有 5 亿人直接使用 Gemini 应用程序,将其打造成谷歌的第 16 个拥有超过 5 亿用户的产品。

内忧外患:隐形的焦虑

基础模型领先、各类应用全面开花、核心业务也得到了更新,看起来,谷歌目前终于能够松一口气了?但现实似乎并非如此。

首当其冲的是内部组织结构的持续紧张。谷歌的 AI 努力仍然受到部门间冲突的困扰。谷歌的研发和产品团队之间存在持续的紧张关系。例如,NotebookLM 项目在推出前,Google Labs 团队与 Workspace 部门就产生了严重分歧。Workspace 员工认为该产品会与谷歌 Docs 等现有应用功能重叠,甚至试图叫停该项目。

DeepMind 和 Google Cloud 之间也存在明显的矛盾。DeepMind 希望尽快将模型推向市场以获取反馈,而 Cloud 则更关注长期稳定性和现有客户需求。这种分歧体现在 AI Studio 等产品的开发中,导致功能更新速度慢于竞争对手。

来自监管机构的压力则更为严峻。2024 年 8 月,一位联邦法官裁定谷歌在搜索市场非法维持垄断地位。同年 11 月,美国司法部要求谷歌被迫剥离其 Chrome 互联网浏览器部门。建议书还指出,如果未来成立的监督委员会发现谷歌仍然存在不当行为,可能会要求法院强制其剥离安卓操作系统。

此外,提案还要求限制谷歌利用其数据规模优势来发展 AI 产品,并建议禁止谷歌在基于查询的 AI 竞品中持有股份。目前,谷歌已经投资了 Anthropic 等生成式 AI 初创公司,一旦法院采纳这一建议,它将不得不出售相关股份。

而且,谷歌搜索的 AI 战略也并不那么顺利,除了几乎无法避免的“幻觉”问题引起用户的不满。内容创作者和出版商也对谷歌的 AI 功能表示担忧,由于 AI Overviews 直接在搜索结果页面展示信息,减少了用户点击进入原始网站的需求。2025 年 2 月,在线教育公司 Chegg 起诉 Alphabet,称搜索功能“抄袭了 Chegg 的内容”,导致它们的流量大幅下降。

谷歌的搜索副总裁 Pandu Nayak 坚称,公司非常重视出版商,AI Overviews 只是用户进一步研究的起点。皮查伊也强调,谷歌的目标是“向生态系统发送高质量流量”。不过在 2024 年 10 月的“网络创作者对话活动”上,谷歌工程师还是告诉出版商:“永远不要期望回到过去的流量水平,因为搜索已经改变了。”

最棘手的是,AI 反而可能会对谷歌的核心广告业务构成威胁。搜索广告是谷歌最大的收入来源,2024 年为公司贡献了近 1,980 亿美元收入,占 Alphabet 总收入的约 60%。随着生成式 AI 的普及,用户可能会减少在传统搜索引擎上的查询次数,转而直接向 AI 助手寻求答案。如果用户的注意力从搜索结果页面转移到直接提供答案的 AI 对话界面,谷歌的广告展示和点击量无疑会受到巨大影响。

而长期巨额的 AI 投资又迟迟看不到实质性回报的可能性,在这种两难的境地下,谷歌的神经依旧紧绷。在 2025 战略会议上,皮查伊告诉员工做好准备,因为今年“风险很高”。而最近连番不断的动作,和他们的焦虑可能也不无关系吧。

路在何方

从 2022 年末到 2025 年初,谷歌完成了一次让我们惊叹的 AI 转型。从被 ChatGPT 逼到墙角,到如今重新站在前列,谷歌成功在两年内重新定义了自己在 AI 时代的角色。

但谷歌能否在激烈的竞争中保持领先地位,仍是一个未知数。一方面,谷歌拥有无可比拟的技术积累、庞大的用户基础和充足的资金;另一方面,AI 领域的创新速度前所未有,新的竞争者不断涌现。

对谷歌来说,最大的挑战可能不是技术本身,而是如何将这些技术转化为可持续的商业模式,同时应对监管压力、维护用户信任,并保持创新速度。

“我们正处于人类信息需求的 1% 状态。”皮查伊在一次采访中表示,“10 年或 20 年后,这一点将变得非常明显。我认为我们正低估了这一切的早期阶段。”

对于这家曾引领互联网革命的科技巨头而言,AI 可能既是最大的机遇,也是最严峻的考验。在反超竞争对手的同时,谷歌仍然难以摆脱深层次的焦虑——一种源自于未知未来的焦虑。

谷歌的 AI 狂飙之旅才刚刚开始,而它未来的形态,或许将影响整个科技行业。

参考资料:

1.https://www.wired.com/story/google-openai-gemini-chatgpt-artificial-intelligence/

2.https://www.bloomberg.com/news/features/2025-03-24/google-s-ai-search-overhaul-racing-chatgpt-for-the-web-s-future?embedded-checkout=true

3.https://www.theinformation.com/articles/googles-ai-efforts-marred-by-turf-disputes?rc=ulenge

4.https://www.bloomberg.com/news/articles/2025-03-24/google-wants-to-transform-search-with-generative-ai-to-rival-chatgpt

5.https://www.cnbc.com/2024/12/27/google-ceo-pichai-tells-employees-the-stakes-are-high-for-2025.html

运营/排版:何晨龙



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。