估值接近百亿,最新一轮融资高达 9 亿美元,Cursor 无疑是今年风头最劲的 AI 产品。Cursor 不仅是一个 AI 协助编程的工具,更加是创造了「vibe coding」的理念,一种主打低代码甚至零代码的编程方式。
能在「套壳」的赛道上,真正闯出名堂,过程总比表象来得更艰辛。在做 AI 编程这个业务之前,Cursor 的初创团队曾经在其它更硬工程的领域兜兜转转,直到最后意识到:创业太难了,还是要做点自己喜欢的。
Cursor CEO Michael Truell 作客 Y Combinator 的播客节目,分享了两次创业以来的经验,他重申了那个听起来有点陈词滥调,但总是有用的理念:
毫不怀疑,永远坚信,直到时间证明你是对的。
下文为访谈内容,经编译及删减。
Garry Tan:
欢迎你,Michael。我们都知道并且非常喜欢 Cursor,你说过,Curosor 的目标是发明一种新型的编程方式,在这种方式下,你可以只描述你想要的东西,然后就可以构建它了。展开讲讲吧。
Michael Truell:
是的,公司的目标是用更好的东西代替编码。我和我的 3 位联合创始人,我们已经做程序员很长时间了。编程吸引我们的一点是,你可以非常快速地构建东西。 但编程需要编辑,数百万行深奥的正式编程语言,需要做很多很多的工作才能真正在屏幕上显示出一些易于描述的东西。
我们认为,在未来的 5 到 10 年里,有可能发明一种新的方法来构建更高水平、更高效的软件,我们使用 Cursor 的目标是到达那里。我们实现这一点的途径是使用 AI 编程,然后不断发展,将其从普通编程发展到看起来非常不同的东西。
Garry Tan:
所以有些人会说这就是我们今天所拥有的——你描述你想要什么,然后它就会出现。我们达到你真正想去的地方了吗?
Michael Truell:
我们正在看到事情真正发生变化,在较小的代码库中,在一小部分软件工作人群中,感受到变化最大。我们已经看到人们在代码之上迈向更高的抽象层次。
但我认为还有很长的路要走。 我认为 vibe coding 或编程的整个想法,如果不真正查看代码并理解它,它就不会真正起作用。如果你现在要处理数百万行代码和数十或数百人在多年的时间里从事某件事情,你不能避免思考代码。
我们的主要重点是帮助专业程序员、面向那些以构建软件为生的人。在这些环境中。人们越来越多地使用 AI 进行编程。我们看到有人使用 AI 编写 40% 到 50% 的 Cursor 内生成的代码行,但这仍然是一个读取 AI 生成的所有内容的过程。因此,我们需要跨越的一个重要鸿沟是产品。我们将会达到一个不再是生产力工具的阶段,它可以帮助你阅读、编写、理解代码。
Garry Tan:
有一些初创公司显然是从零行代码开始的,所以这好像很容易。你觉得有没有一个界限,在那之上,仅仅是 vibe coding 就不太够了?
Michael Truell:
如果打算让代码在很长一段时间内保持稳定,那么我们绝对不建议您使用 vibe coding。我认为,当你是几 个人的初创公司时,并试图弄清楚你在做什么时,开发的一个特点通常是:代码只能存在数周。
现在,我们正处于这样一个阶段,AI 正在为你提供帮助,对吗?要么将任务委托给人工智能,对它们说: 去帮我做这件事,去回答这个问题。
编程有时候是非常可预测的,当你只是在旁边观察某人工作时,你知道,他们接下来 10 分钟、15 到 20 分钟的工作内容。所以这种标签页的形式可以发挥很大作用。而且这种委托给另一个人的代理形式也可以发挥很大作用。
一旦这些开始变得成熟,对于 25%、30%的专业开发工作,可以完全端到端地依赖这些工具,而不用真正去关注具体细节。那么接下来需要弄清楚的是,关于如何让这些在现实世界中真正发挥作用。
如果我们是一个帮助人类将头脑中的想法转化为屏幕上内容的工具,那么给人们对最细微细节的控制权总是很有帮助的。这是我们面临的产品挑战之一: 你应该总是能够编辑逻辑中非常具体的部分。
我认为一个有用的用户界面是将软件的逻辑写下来。然后你可以指向逻辑的各个部分并实际编辑它们。但是如果我们达到一个你不必太关注代码的地步,那个写下来的软件逻辑版本就必须变得更高层次。
我们对此感到兴奋,在让代理工作起来之后,在让标签页形式变得非常成熟之后, AI 是否真的会改变编写和查看编程语言的含义?
Garry Tan:
是跟上下文窗口有关吗?一旦你超过大约 100 万到 200 万个 token,甚至我觉得直到最近 100 天我们才获得了可用的 200 万 token 长度,这是一个阶段。一旦你的代码库达到一定规模,就必须使用 RAG(检索增强生成),它有不完整的上下文,然后就无法做到人类程序员能做的事情?
Michael Truell:
是的,我认为在 agent 达到人类水平方面存在许多瓶颈。上下文窗口方面肯定是一个问题,如果你有 1000 万行代码,那大概是 1 亿个 token, 既要有一个能够实际摄取这些内容的模型,又要让它具有成本效益,然后不仅仅是要有一个能够将这些内容摄取到其权重中的模型,还要有一个能够有效关注那个上下文窗口的模型。这很复杂。
我认为这是这个领域需要解决的问题。而且这不仅仅是代码库的问题。这也是一个持续学习的问题:了解组织的背景和过去尝试过的事情,以及让模型真正持续学习某些东西的问题,这是我认为这个领域仍然没有很好解决方案的问题。 训练这些模型的机构缺乏真正良好的长期上下文数据,所以我认为这将会很棘手。但是持续学习和长期的背景知识绝对是瓶颈。
在网上有一个关于过去一两年在最大时间长度方面进展的惊人图表。AI 能够在一个任务上运行的时间已经从几秒钟增加到——我不知道这些数字实际上是如何得出的但有人声称,一些最新的模型可以达到一个小时。当然不同模态还存在问题,所以要成为一个软件工程师,你需要运行代码然后处理输出。
所以 计算机使用对于代码的未来将是重要的,能够运行代码,能够查看 Datadog 日志并与人类使用的那些工具进行交互。有很多我们将不得不面对的已知问题,还有很多我们将不得不面对的未知问题。
然后我要指出的一件事是,我认为仅仅有一个文本框来要求软件更改的用户界面是不精确的。所以, 如果你关心人类能够控制屏幕上显示的内容,你就需要一种不同的界面方式让他们进行交互。
一个潜在用户界面是编程语言的演进,变成更高层次的东西。另一个可能是用户界面的直接操作,能够指向屏幕上的东西并说,哦,变这个,或者自己调整这些值。
Garry Tan:
这似乎是一堆刚刚冒头的东西,对吧?模型似乎没有明确的美学感知,所以也许这个需要人类设计师能够看到。
Michael Truell:
看到它们在美学方面有所改善是很有趣的。我们的理解是,你教这些模型在美学等方面做得更好的方式,并不像你教人类那样。它是通过收集大量数据,并对它们进行强化学习。这就是你在这个任务中的教学方式。这是一项足够多的人关心的任务,你可以支付所有这些的成本,你可以去训练并将其融入基础模型中。
Garry Tan:
因此,考虑到每个人都在建设的未来,而你无疑是站在前沿的领导者,你认为未来作为一名软件工程师,什么是不可替代的或类似的基本要素?是审美吗?
Michael Truell:
人们通常在思考软件的视觉方面时会考虑这个问题。我认为 软件的非视觉方面也需要审美:关于逻辑如何工作。而现在,主动编程某种程度上会弄清楚你到底想要东西如何工作——比如你通过编写的逻辑真正定义的是什么产品,以及实现细节的高层次审美,即如何将其映射到物理计算机上——这些都捆绑在一起。
但是现在,很多编程都是你在做的一种人工编译,你知道自己想要什么。你真的必须为计算机详细说明,因为你能够用来向计算机描述事物的语言是正常的编程,就是,你知道,for 循环、if 语句、变量和方法。你必须详细说明。
所以我认为越来越多的那种人工编译步骤将会消失,计算机将能够填补空白,填补细节。但是由于我们的工具是帮助你实现的,帮助你构建你想的东西的那种品味,我认为永远不会消失。
Garry Tan:
这很有道理。 有句话说优秀的人会帮助你达到你能看到的标准,但真正伟大的、真正精通的人,他们能达到一个你甚至看不见的更高标准。而这需要审美。你把这称为人们需要成为逻辑设计师。在意图驱动编程方面,这意味着什么呢?
Michael Truell:
随着这项技术越来越成熟,随着我们越来越接近一个编程可以自动化,可以用更好的构建软件的方式取代的世界,我认为会有很多影响。
一个是,专业的开发人员只会变得更加高效。千人软件项目的进展速度如此之慢,百人软件项目的进展速度如此之快,很疯狂,其中很大一部分归结于现有逻辑的重要性,只是让你发挥最好的一面。
随着这项技术越来越成熟,当我们越来越接近一个编程可以被自动化并且可以被更好的软件构建方式取代的世界时,我认为会有很多影响。我认为其中一个是,专业开发者将变得更加高效。
千人软件项目的进展速度,百人软件项目的进展速度,以及真正的专业软件项目的进展速度都慢得令人发狂,很大程度上这归结于现有逻辑的负担,就是让你不堪重负。当你在一个代码库中时,可以从头开始,你可以很快地做事情,当你改变某些东西时,却会有一堆其他的东西随之破坏而需要你去修复。
我认为其中一个影响将是,下一个分布式训练框架,下一个数据库或下一个视觉设计工具的构建速度将会快得多,下一个 AI 模型也是如此,如果你和实验室交谈,他们很大程度上在工程能力上受到瓶颈限制。我认为所有这些都会大幅改善。
我的第一份工作之一实际上是在一家生物技术公司工作,这是一家由实验室科学家组成的公司。他们正在开发治疗疾病的药物,我是被聘用的第一个软件工程师,他们正在生成大量的化学物质,然后让它们通过这些生物实验。然后他们需要读取结果来弄清楚应该进一步研究哪些化学物质,需要大量的内部软件开发来做这件事。
令人惊讶的是,看看现有的工具,它们是多么糟糕。然后想到这家软件不是核心竞争力的公司,必须出去做这种疯狂、费力的事情——雇佣一个真正的软件工程团队并培训他们,让他们进行内部产品开发,这简直太疯狂了。对于这种类型的公司,将会有更多的选择可供他们使用。
Garry Tan:
换个话题,我想听听 Cursor 早期的故事,你在 MIT 遇到了你的联合创始人 Sule、Arvid 和 Aman,这家公司成立于 2022 年。是什么把你们聚到一起的,你们什么时候意识到这是一个能够一起构建真正宏大目标的团队?
Cursor 的创始人团队
Michael Truell:
我认为我们有很多年轻的天真,在当时可能是没有根据的。一开始我们就相当有野心。 Cursor 实际上来自于我们四个人的一个雄心勃勃的想法练习,你知道,我们都很年轻就开始了编程,然后我们的一些早期工程项目实际上与 AI 有关。我们中的一个人致力于提高机器人强化学习的数据效率,就是教机器人非常快速地学习新任务。那是我们早期的 AI 项目之一。
另一个人致力于构建 Google 的竞争对手,使用神经网络来尝试快速构建一个令人惊叹的网络搜索引擎。其他人在 AI 方面做学术工作,但在 2021 年有两个时刻让我们真正兴奋地想要建立一家专注于 AI 的公司。
其中一个是使用第一批真正有用的 AI 产品,其中 AI 真正处于核心地位,GitHub Copilot 老实说是那个让我们真切感受到现在真的可以用 AI 制作非常有用的东西的时刻,我们不应该去实验室工作来做这些事情。相反, 是时候让这些东西进入现实世界了。
另一件让我们真正兴奋的事情是看到来自 OpenAI 和其他地方的研究,显示有这些非常可预测的自然法则,表明如果你扩大数据规模并扩大投入这些模型的计算量,它们就会变得更好。
我们想要选择知识工作的一个领域,然后致力于随着 AI 变得更加成熟,那个知识工作会变成什么样。 我们对这样一种公司的形态非常感兴趣:为那个知识工作领域构建产品。首先,随着底层技术变得更加成熟,你就可以演进做那件事的形态。其次,即使在那时,很明显你可能需要的不仅仅是扩大语言模型的规模到 GPT 级别,继续推进底层机器学习进展的一种方式是获得产品数据。
我们实际上并不太了解机械工程,我们研究了一段时间的计算机设计副驾驶。所以我们在训练 3D 自动补全模型,帮助那些在 Solidworks Fusion 360 这样的软件中对他们想要构建的零件进行 3D 建模的人,试图预测他们将要对几何形状做出的下一步改变。这是一个有趣的问题。这是学术界一直在研究的问题。实际上这也是 DeepMind 稍微研究过的问题。
Garry Tan:
这些都不是大语言模型。
Michael Truell:
你可以完全用 3D 来做,或者你可以说是我们研究了一段时间的一个方向,就是将其转化为语言问题,你把某人在 CAD 系统中所做的步骤转化为方法调用。相当复杂,但我们研究了一段时间。
这有几个原因。一个是我们对机械工程真的没有像对编程那样兴奋。我们都是程序员。另一个是,我认为当时的科学技术还没有为 3D 做好准备,比如预训练模型在这方面还不够好。没有很多数据。互联网上 CAD 模型的数据比代码少好几个数量级。所以很难制作一个有用的模型,或者当时很难为那个领域制作一个有用的模型。
Garry Tan:
你会和那些使用 CAD 或机械师之类的人坐在一起吗?
Michael Truell:
我们就是这样做的。我们进行了大量的用户访谈,我认为我们可以做得更好。我认为,在年轻的天真中,我们每天都在运转,每周按小时计算任务,回顾我们在这方面花费的时间,我认为提早点更好。或者去一家雇佣机械工程师三周的公司工作吧,我认为那是非常有价值的,可以替代类似的数百个用户访谈中的一些。
Garry Tan:
我猜除此之外,你还在训练自己的模型来做到这一点,使用强化学习,这非常有用。同时学习如何启动大型集群来实际训练这些模型。
Michael Truell:
是的,我们当时并不知道。但是,是的, 我们在那里做的一些事情最终对我们有用。它做了很多行为克隆,更少的 RL,但是在寻找人类所做的好的例子,然后训练 AI 去做这些事情。训练数百亿参数的大型语言模型并不是当时很多人在做的事,而且老实说,现在也没有那么多人训练超过 100 亿的参数规模、大型语言模型和机器学习模型。
因此,基础设施的状态非常非常早。我们正在做像 4k Megatron LM 或微软这样的事情,剥离内部结构,部署用于训练的东西,甚至在推理方面,在那个时期,我们大规模运行了几件事情。现在在 Curosr 中,我们每天通过自己的推理进行超过 5 亿个模型调用,并且了解当时进行推理的一些经验,并且当时的训练对于 Curosr 体验绝对是非常有用的。
Garry Tan:
所以,有一件事我觉得既非常勇敢、又非常有远见,那就是你们在某个时刻停下来,说:「其实我们对 CAD 了解得还不够,我们需要换一条路。」
当时是从训练 CAD 模型开始的吗?是不是最初的路径是:看到大模型实验室已经掌握了扩展能力,而 CAD 是一个可以深入的领域,于是就朝那个方向走下去?然后你们意识到,其实需要做的是别的事情。那么,真正让你们转向现在这个方向的那个契机是什么?
Michael Truell:
这并不是一时兴起的想法。我们本身就是程序员,也受到像 Copilot 这样的产品和早期 Codex 论文的启发。我还记得,当时我们为了说服投资人支持我们这个听起来有点疯狂的 CAD 点子,做过一件事:我们算了一下训练 Codex,第一个代码模型,大致需要多少钱。按我们的粗略计算,大概只需要九万美元或者十万美元左右。这个数字当时让投资人非常吃惊,也在某种程度上帮助我们筹到了足够的资金去推进 CAD 项目——因为那个项目一上来就得开始训练模型。
我们其实一直都很关注编程方向,也一直对 AI 会如何改变编程这件事感到兴奋。但当时我们对投身这个领域还是有些顾虑,因为已经有很多人在做了,Copilot 本身就很厉害,还有几十家其他公司也在做类似的事。
我们后来决定放下 CAD 项目——那个方向本身相对独立,但科学上不太顺利,我们自己对那个领域也逐渐失去了兴趣。而真正让我们重新回到编程方向的,是我们自身的兴趣,而支撑我们继续走下去的信心,则来自两方面:
一是我们看到过去九个月左右,其他人在这个领域的进展似乎没有我们想象中那么快;二是我们认真想了一下, 如果我们真的相信自己的判断,那么五年之内,所有的编程都会通过这些模型完成,编程这件事的本质会彻底改变。要走到那一步,无论是产品层面还是模型层面,都还需要迈出很多关键的跃迁,而这个方向的天花板实在太高了。
与此同时,我们也观察到,现有的一些参与者好像并没有真正立志去实现一种「全然不同的编程方式」,他们的野心并不在那个层面,也缺乏真正去实现那个目标的执行力。
第一次的经验告诉我们,建立一家公司很难,所以不妨去做你真正兴奋的事情。那个时候,我们开始着手研究公司的未来。
Garry Tan:
听起来你们当时的判断格外有远见。大概一年前,Sam Altman 也坐在这把椅子上说过类似的话:如果你在赌模型不会变得更聪明,那就是个糟糕的赌注。你应该始终相信模型在接下来的 12、18、24 个月里会变得更聪明——而事实也确实越来越印证了这一点。
而你们听起来是在他这么说之前整整提前了 12 个月,就已经下定了这个赌注。
Michael Truell:
是的,当时我们内部有一句话叫做 「follow the line」——意思就是始终要沿着那条进步的曲线前进,并为它的走向做规划。
这个理念其实可以追溯到「扩展法则」(scaling laws):只要你沿着这条线走,这些模型就会不断变得更好、更强、更聪明。我们相信这条曲线不会停,所以产品设计和路线规划也得始终对准它,提前为模型的飞跃做准备。
Garry Tan:
彼得·蒂尔有句经典的问题是:「你相信什么,而别人都不相信?」而你们当时相信了这件事——而且事实证明你们是对的。也正因为如此,你们才能走到那个「冰球即将落点」的地方。
Michael Truell:
是的,我想这是我们当时的一个优势。虽然现在这些观点已经变得非常主流了,但回到当时——比如说 2022 年,那真的是一个疯狂且关键的转折点。
那一年年初,几乎没人真正谈论 AI。GPT-3 是前一年发布的,Copilot 当时刚处在测试阶段(2021 年),可能 2022 才正式上线。之后才慢慢开始引起注意。我们还清楚地记得当时一系列产品的发布,比如 InstructGPT,它通过指令微调让 GPT-3 更好用了一点;夏天的时候是 DALL·E, 那次发布非常直观地打动了一些原本并不关注这个领域的人,让他们开始正视 AI 的发展。
再接下来是 PaLM 和 Stable Diffusion,然后是 RLHF(人类反馈强化学习)、GPT-3.5 的出现。这些模型的能力提升非常快,却并没有伴随训练成本的大幅上涨,这点非常引人注意。
有传言说,从 GPT-3 到 ChatGPT(也就是大家真正关注的爆发点)之间,训练成本只增长了大约 1%。这太疯狂了。而促成这巨大跃升的,是对指令的微调(instruction tuning)、RLHF,以及一些其他细节调整。
Garry Tan:
你还记得有没有哪些具体的产品功能或路线上的决策,是基于你们相信模型不仅会变得更聪明,而且会变得非常非常聪明这一前提做出的?这些决策后来有没有真的成为让你们「赢下比赛」的关键?
因为你之前也提到,其实当时这个领域里确实还有十几家很不错的公司在做类似的事——但最终你们走到了前面,是不是和你们在早期就押注模型飞跃式进化、并据此做出不同产品路线有关?
Michael Truell:
我们当时做出的一个不那么显而易见的产品决策,就是不做浏览器插件(extension),而是选择从头构建一个编辑器(editor)。在当时,这个选择对很多人来说并不直观,甚至有点反常。
但它背后的逻辑其实来自我们对未来的激进设想——我们相信所有编程最终都会通过这些模型完成,而且整个编程的样貌会完全不同。要实现那种形态,你就必须对用户界面(UI)有完全的控制权,不能受限于现成的平台或接口。 所以我们从一开始就决定构建自己的编辑环境,而不是附着在别人的系统里。
Garry Tan:
2025 年了,我觉得我们其实才刚刚踏入「智能时代」的序幕,真的是一场彻头彻尾的革命。你个人现在最让你兴奋、最期待的是什么?
Michael Truell:
我觉得未来这十年,大家的「创造力」都会被极大放大——那些一直活跃在创作第一线的人会更有力量,而更多之前没机会动手的人,也会变得触手可及。
我们正在招募伙伴
相关文章
2025-06-1511阅读
2025-06-1511阅读
2025-06-1511阅读
2025-06-1511阅读
2025-06-1511阅读
2025-06-1511阅读
2025-06-1511阅读
2025-06-1511阅读
2025-06-1511阅读
2025-06-1511阅读