Sora2团队最新访谈解密:它不是视频工具,而是“世界模拟器”的开端 | 2万字+视频

资讯 » 新科技 2025-11-07

|未经许可不得转载星标本号获取世界最新顶级认知|


整理:Web3天空之城

城主说|当一项技术的影响力足以模糊现实与模拟的边界时,它便不再仅仅是一个工具,而是一种新范式的预兆。OpenAI的Sora2可能暗示了这个方向.实话说, Sora2并不是在所有视频生成的方面都顶尖,但它确实给出了很多新鲜东西: 自动多镜头, 强大的人物一致性和语音同步,等等。
在今天发布的红杉合伙人对话Sora2团队的深度访谈中,Sora2背后的核心团队——研究负责人Bill Peebles、工程主管Thomas Dimson以及产品负责人Rohan Sahai揭示了一个远比“文本到视频”更为宏大的愿景:Sora并非终点,而是构建通用“世界模拟器”的第一步。

这次对话的核心,是关于一种产品哲学的深刻思考:如何设计一个旨在激发“创作”而非鼓励“消费”的AI平台。团队从Instagram等社交巨头的经验中汲取教训,将Sora打造成一个降低创意门槛、强化人际互动的社交实验场。他们认为,现在正是视频AI的“GPT-3.5时刻”,需要通过迭代式部署,让社会与这项强大的模拟技术共同进化,并为其最终可能实现的——一个由“数字克隆”执行任务的未来——制定规则。

完整视频:

0:00:00 Sora背后的团队访谈:技术迭代与社会适应

0:02:56 扩散Transformer与视频生成的突破

0:06:06 Sora 1与Sora 2:智能涌现与物理规律的尊重

0:08:43 时空令牌、内部世界模型与数据选择

0:12:48 Sora的潜力:模拟科学实验与发现新物理学

0:14:50 构建通用世界模拟器的模态选择

0:16:42 Sora产品团队的组建与社交应用探索

0:20:50 从Instagram到Sora:创作优先与信息流优化

0:31:35 Sora API的应用:长尾用例与游戏开发

0:37:40 Sora的创意电影制作与长片愿景

0:41:15 知识产权的考量与创作者经济模式

0:45:30 Sora的未来展望:多元宇宙与模拟现实

核心观点摘要

“我们再次达到了视频领域的GPT-3.5时刻,让我们确保世界意识到现在可能发生什么。”

“你不是使用自回归建模作为核心目标,而是使用一种称为扩散的技术……由于您是同时生成整个视频,您实际上解决了质量可能随时间降低或变化的问题。”

“当你把足够的计算和数据投入到这些系统中时,为了真正解决预测下一个token这一任务,你需要开发一个关于世界如何运作的内部表示。”

“从Instagram的角度来看,让人们在Instagram上创作几乎是不可能的。而那是人们所做的最有价值的事情。”

“它实际上比许多社交网络更具社交性,即使它都是人工智能生成的内容。非常不直观。”

“我们离任何人都可以真正拥有制作惊人内容的工具的世界已经不远了……很可能下一位伟大的电影导演正坐在他们父母的家里。”

“你自己的副本在Sora和以太中四处运行,执行任务并向现实世界报告,因为这就是我们长期发展的方向。”

Sora的核心技术:从扩散Transformer到“世界模拟器”

要理解Sora的雄心,必须先深入其技术内核。作为扩散Transformer(Diffusion Transformer, DIT)的发明者,Bill Peebles解释了其与主流语言模型(如GPT)的根本不同。自回归模型一次生成一个token,而扩散模型则采用一种全新的方式:“从非常高的层面来说,基本上包括获取一些信号,例如视频,向其中添加大量噪声,然后训练神经网络来预测你添加的噪声。” 这种逐步去噪的生成过程,允许模型同时生成整个视频

这一特性是革命性的。它从根本上解决了先前视频生成模型中普遍存在的“物体恒存性”难题——即物体在视频中会无故出现、消失或变形。通过将视频分解为无数个“时空令牌”(Spacetime Tokens)——一种包含空间(X, Y)和时间维度的微小数据块——并利用Transformer强大的注意力机制,模型能够获得视频中每个时空位置发生的所有事情的完整全局上下文

正是在这种机制下,Sora开始涌现出令人惊叹的智能。Peebles指出,当模型规模达到某个临界点时,它为了更好地预测视频的下一帧,被迫发展出对物理世界的内在理解。“为了真正解决预测下一个token这一任务,你需要开发一个关于世界如何运作的内部表示。” 这就是Sora作为“世界模拟器”的理论基础。它不再是简单地模仿像素,而是在模拟物理定律。一个有趣的例子是:当Sora生成“篮球运动员投篮不中”的场景时,“篮球实际上会从篮板上弹回来”,而不是为了满足用户提示而“魔术般地”飞入篮筐。这种对物理世界的尊重,标志着模型智能的质变。

打破消费循环:Sora优化“创作”而非“消费”的产品哲学

如果说强大的技术是Sora的骨架,那么其独特的产品哲学则是其灵魂。曾负责Instagram早期推荐算法的Thomas Dimson,带来了对社交产品设计的深刻反思。他指出,传统社交平台存在一个固有矛盾:“在Instagram上,创作者呈现出一种极端的幂律分布,” 少数头部创作者占据了绝大部分注意力,而普通用户的创作意愿被压抑。平台的商业模式又进一步加剧了这个问题,“存在一个天然的公司激励机制,就是为了盲目消费而优化,因为这是你赚钱的方式。”

Sora应用的设计,正是为了颠覆这一模式。团队的既定目标是优化“创作”而非“消费”。“这项技术的魔力在于每个人都是创作者。所以我们希望这个信息流能够针对你的创作进行优化,以激励你进行创作。” 这一理念取得了惊人的成功。产品负责人Rohan Sahai透露的数据证实了这一点:“几乎百分之百的人,在应用程序上通过邀请码后,最终都会在第一天进行创作。当他们回来时,大约有70%的时间他们会进行创作。” 这是一个与传统社交平台截然不同的用户行为模式,证明了降低创作门槛的巨大潜力。

“客串”(Cameo):让AI更具社交性的关键

在Sora优化创作的哲学中,“客串”(Cameo)功能是点睛之笔。它允许用户将自己或朋友的形象无缝植入AI生成的视频中,这一功能彻底改变了用户与AI内容的互动方式。最初,团队甚至对其可行性表示怀疑,但结果却出乎意料。

“客串”功能引爆了内部测试,信息流迅速被团队成员互相“客串”的表情包和混音视频占领。Thomas Dimson总结道:“它真的感觉像是又回到了那种状态……很多AI视频只是那种静态的场景……但它们失去了那种人情味。” “客串”将人的因素重新带回了AI生成的内容中,使其不再是冷冰冰的技术展示,而是朋友间的玩笑、共同的创作和社交的媒介。“它实际上比许多社交网络更具社交性,即使它都是人工智能生成的内容。非常不直观。” 这一反直觉的发现,成为了Sora产品设计的核心支柱。

不止于应用:API、游戏与电影制作的未来

Sora的愿景远不止于一款社交应用。通过开放API,OpenAI旨在赋能长尾的、更专业的用例,从电影工作室的特效流程整合到CAD设计公司的可视化工具。

在游戏领域,团队看到了超越简单内容生成的可能性。Thomas Dimson提到了《无限工匠》(Infinite Craft)这样的游戏,其核心乐趣在于探索由LLM驱动的、几乎无限的合成可能性。他认为,Sora也能开启类似的、以“发现”为核心的新游戏范式。“这些都在权重里。你只是用像秘密代码一样的东西解锁它,也就是你的提示词。我喜欢这样。这是非常神奇的。”

对于电影制作,Sora则被视为一种终极的民主化工具。Bill Peebles相信,这项技术将极大地压缩电影制作的成本和周期。“很可能下一位伟大的电影导演正坐在他们父母的家里,可能还在上高中之类的,只是还没有获得投资或工具来实现他们的愿景。” 虽然长篇电影的制作仍面临算力成本的挑战,但一个由AI赋能、人人皆可导演的时代已不再遥远。

长期愿景:通往数字克隆与“共同进化”的未来

在访谈的最后,团队揭示了Sora最令人震撼的长期愿景。他们认为,“客串”功能只是一个起点,是“向Sora提供关于你自己的信息的最低带宽方式”。未来,随着带宽的增加,模型将能深刻理解你的身份、人际关系乃至个人历史,最终“能够几乎像一个数字克隆一样运作”。

在这个终极设想中,Sora应用将演变成一个运行在个人设备上的“迷你替代现实”。“你拥有你自己的多个版本,可以离开并与其他人的数字克隆互动。你可以做知识工作。这不仅仅是为了娱乐……它真的更多地演变成一个平台。” 这就是Sora作为“世界模拟器”的最终形态。

正是因为这个未来如此颠覆性,OpenAI才选择现在就以迭代的方式部署这项技术。正如Bill Peebles所强调的,“我们希望社会与技术共同进化,” 而不是等待技术完全成熟后,再向世界投下一颗“重磅炸弹”。Sora的发布,是邀请全社会共同参与的一场对话,旨在为那个由AI深度模拟的未来,共同探索和制定规则。

天空之城全文整理版 Sora的迭代部署与长期愿景

Bill: 对于OpenAI来说,至关重要的是,我们要以一种迭代的方式部署技术,而不是像在出现重大研究突破时向世界投下重磅炸弹一样,我们希望社会与技术共同进化。所以我们才真正认为现在做这件事很重要,而且要以一种你知道的方式去做,我们再次达到了视频领域的GPT 3.5时刻,让我们确保世界意识到现在可能发生什么。此外,你也知道,开始让社会适应,并开始弄清楚这种长期愿景的游戏规则,在这种愿景中,你自己的一些副本在Sora和以太中四处运行,只是在执行任务,然后汇报回物理世界,因为这就是我们长期的发展方向。

红杉合伙人Konstantine: 今天在“训练数据”节目中,我们将与OpenAI的Sora背后的团队——Bill Peebles、Thomas Dimson和Rohan Sahai——进行访谈。你将听到关于时空令牌、构建内部世界模拟器,以及为创造而非消费进行优化如何对社交平台更好。这次对话远远超出了视频生成,深入探讨了社会将如何与强大的模拟技术共同进化的问题。我们保证这是一次真实的对话,而不是视频生成。我们不知道如何向你证明这一点。让我们开始吧。

团队成员与背景介绍

红杉合伙人Konstantine: 嘿,大家好,感谢你们来到红杉资本。祝贺Sora的发布。谢谢。也许你们可以简单介绍一下自己,以及你们是如何加入OpenAI和Sora的。好的,我是比尔。

Bill: 我是OpenAI的Sora团队负责人。我的经历比较传统,本科期间就开始做视频生成方面的研究,然后在伯克利继续进行这项工作。从加入OpenAI的第一天起,我就开始从事Sora的研究。

Thomas: 我是托马斯。我在Sora内部担任工程主管。我的故事稍微长一点,我在Instagram工作了大约7年,主要负责一些早期的机器学习系统和推荐系统。但那是一个非常小的公司。大约有40人。之后我辞职了,自己创办了一家公司,开发了Minecraft和浏览器,我们已经聊过几次了。我认为OpenAI注意到我们有一个非常出色的产品团队,所以他们收购了我们公司。我一直在OpenAI内部的不同产品部门以及后期训练的研究部门之间周旋,但非常高兴我们最终一起在Sora上落地,使其成为现实。

红杉合伙人Konstantine: 期间还有一个非常酷的产品,比如全局光照产品。我仍然相信它。我也是。

Rohan: 太棒了。我是罗汉。我在OpenAI工作了大约两年半。最初是ChatGPT的独立贡献者(IC),但当我看到VideoGen的研究后,我很快就被Sora吸引,并加入了该团队。所以目前领导着Sora产品团队。在此之前,我曾在硅谷的初创公司和大公司工作过,做过很多零碎的事情。

Sora的核心技术:扩散Transformer与时空令牌

红杉合伙人Konstantine: 比尔,你是扩散Transformer的发明者。你能告诉我们那是什么吗?

Bill: 所以大多数人对自回归Transformer都相当熟悉,这是驱动目前许多语言模型的核心技术。在那里,你一次生成一个token,并且以所有先前的token为条件来生成未来的token。扩散Transformer则有些不同。因此,你不是使用自回归建模作为核心目标,而是使用一种称为扩散的技术,这种技术从非常高的层面来说,基本上包括获取一些信号,例如视频,向其中添加大量噪声,然后训练神经网络来预测你添加的噪声。这是一种不同的迭代生成建模方式。因此,扩散模型不像自回归模型那样逐个token生成,而是通过逐步消除噪声来生成,一次消除一步。

在Sora 1中,我们真正普及了这种用于视频生成模型的技术。因此,如果你看看美国和中国的所有其他竞争模型,它们中的大多数都基于DIT,即扩散Transformer。其中很大一部分原因是DIT对于视频来说是一种非常强大的归纳偏置。因此,由于您是同时生成整个视频,您实际上解决了质量可能随时间降低或变化的问题,这对于之前的视频生成系统来说是一个大问题,而扩散图像变换器(DITs)最终解决了这个问题。所以这就是为什么你会看到它们在视频生成堆栈中扩散的原因。

红杉合伙人Konstantine: 当我尝试将其可视化时,我的意思是,对于每次扩散,你都有一个像素矩阵,然后你同时处理整个视频,你可以将其基本上视为不同的帧,我想象是这样的。你能把它想象成一个矩阵的矩阵,随着时间的推移而变换吗?

Bill: 这是个好问题。因此,我们实际上是在时空令牌的粒度上考虑问题,这有点像一个疯狂的短语。但是,就像字符是语言的基本构建块一样,对于视觉来说,实际上是时空补丁的概念,对吧?你可以想象这个小长方体,它既包含了X和Y,比如空间维度,也包含了一个时间区域。这实际上是你可以用来构建视觉生成模型的最小构建块。因此,扩散变换器几乎可以考虑这些,你可以把它想象成逐个体素。而且,在这些扩散Transformer模型的传统版本中,你拥有所有这些小的时空补丁与其他所有补丁进行通信。这就是你实际上能够获得诸如物体恒存性等属性的原因。因为基本上你拥有视频中每个时空位置发生的所有事情的完整全局上下文,这对于神经网络来说是一个非常强大的属性。

红杉合伙人Konstantine: 这是否等同于注意力机制?物体在整个视频中的运动是吗?没错。

Bill: 所以在我们关于视频生成模型作为世界模拟器的SORLON博客文章中,我们列出了一些视觉效果,这些效果深入探讨了你在这里提出的观点,即注意力实际上是一种非常强大的机制,对吧?用于共享通信,例如在时空中共享信息。如果你以这种方式表示数据,对吧,将它分成一堆时空令牌,只要你正确地使用注意力机制,就可以让你一次性地在整个视频中传输信息。

从Sora 1到Sora 2:涌现的智能与物理模拟

红杉合伙人Sonya: Sora 1和2之间最大的区别是什么?我记得最初的Sora 1,你已经能看到某种涌现属性,当你扩展得越多,它就越能理解物理学之类的东西。Sora 2纯粹是扩展的功能,还是说最大的区别是什么?

Bill: 这是个好问题。自从Sora 1发布以来,我们花了很长时间进行核心生成建模研究,以真正弄清楚如何获得视频生成能力的下一个阶跃函数改进。我们实际上是从第一性原理出发进行运作的,对吧?所以我们真的希望这些模型在物理方面非常出色。我们希望它们能以一种我觉得大多数以前的视频生成模型所不具备的方式,给人一种智能的感觉。

所以我真正的意思是,如果你看看之前的所有模型,你会注意到很多这种“发生效应”。比如,如果你尝试进行任何复杂的物理交互序列,对吧?例如,像扣球体操、经典项目、骑龙,就像你做的骑龙一样。那很有趣。那就是真实发生的事情。实际上,康斯坦丁,上一代模型存在非常明显的问题,我们确实打算用Sora 2来解决这些问题。而且我认为这个模型与之前的模型相比,一个非常酷的事情是,当模型出错时,它的失败方式非常独特,是我们以前从未见过的。具体来说,例如,如果给Sora的文本输入是“一个篮球明星想要投篮”,对吧?投三分球。如果他在模型中投失了,Sora不会像变魔术一样引导篮球进入篮筐,对吧?过于乐观地尊重用户的要求。它实际上会在大多数时候遵循物理定律,篮球实际上会从篮板上弹回来。所以这是一个非常有趣的区分,对吧?介于模型失效和智能体失效之间。智能体指的是Sora在生成视频时隐式模拟的智能体。而且我们还没有真正看到这种非常独特的类似语义失效的情况,这在之前的视频模型中没有出现过。这对Sora 2来说是全新的。这有点像是我们投入的结果,比如真正进行核心的生成建模研究,从而在能力上获得巨大的提升。

红杉合伙人Sonya: 好的,所以不仅仅是规模的问题。实际上,这里面隐含着一些智能体的概念。除了扩展规模之外,你们还在做其他事情。

Bill: 关于智能体的概念,我认为实际上主要还是来自于规模。你知道的,我们展示的物体恒存性一样,对吧?一旦你达到像临界浮点运算阈值之类的某个值,它就开始在Sora 1的预训练中显现出来。当我们推进到下一个前沿时,我们看到类似的现象发生。对。所以你开始看到这些智能体表现得更加智能。你开始看到物理定律以一种在较低计算规模下无法实现的方式得到尊重。

红杉合伙人Konstantine: 时空潜在补丁的概念与时空令牌如何关联?它们与物体永久性和事物在物理世界中的移动方式又有什么关系?

Bill: 这是个好问题。所以我认为时空补丁和时空令牌或多或少是同义的。我会交替使用它们。真正美妙的是,当人们开始将语言模型从像GPT-1扩展到GPT-2再到GPT-3时,我们真正开始看到这些系统中内部世界模型的出现。而这件事的美妙之处在于,有极其简单的分词器,实际上用于创建我们训练这些系统的数据。但尽管这种表示非常简单,对吧,你知道的,比如 BPE 字符,或者其他什么,当你把足够的计算和数据投入到这些系统中时,为了真正解决预测下一个 token 这一任务,你需要开发一个关于世界如何运作的内部表示。对。你需要模拟事物。而且,你知道的,这些模型在低计算规模下会犯很多错误。但是,当你持续从 3 推到 4 再到 5 时,你会看到这些内部世界模型变得越来越稳健。

这对于视频来说也是非常相似的。对。而且在很多方面,更加明确。所以峩认为更容易想象一个世界模型或世界模拟器在视频数据中是什么样子,对吧,因为它实际上代表着所有现实的原始观测比特。但真正 remarkable 的是,因为这些时空补丁只是一种非常简单且高度可重用的表示,可以应用于任何类型的数据。对。无论是这个集合的视频素材,还是动漫、卡通,或者其他什么。你只需构建一个神经网络,它就能在这个巨大的、极其多样化的数据集上运行,并真正构建这些令人难以置信的强大表示,从而模拟世界非常普遍的属性。对。拥有一个世界模拟器来预测卡通片如何展开是很有用的。同样地,预测这次谈话会如何展开也很有用。因此,这确实给Sora带来了很大的优化压力,使其能够以非常高效的数据方式理解这些核心基本概念。

数据策略与模型的极限

红杉合伙人Konstantine: 你们是否需要努力选择数据,以使其反映物理世界?例如,我认为如果你拥有来自物理世界的数据,它们都遵守物理定律。但你提到了动漫,它可能并不总是遵守物理定律。你们是否需要有选择性,还是它自然地找到了区分这些模式的规律?

Bill: 这个问题非常好。我们的确花了很多时间,你知道的,真正思考,你知道的,对于像世界模拟器这样的东西来说,最佳的数据组合是什么样的?正如你所说,你知道的,我认为在某些情况下,我们会做出一些决定,你知道的,也许会使模型非常有趣。比如,举个例子,人们喜欢生成动漫,但是,不一定喜欢完美地呈现像物理定律那样,直接对现实世界的应用有用。所以,换句话说,对吧。我认为在动漫中,有一些简化的基元,实际上可能对理解现实世界有用。例如,人们仍然在场景中移动。但是,如果有像一些疯狂的龙在飞来不去,那可能对火箭空气动力学之类的东西不太有用。《龙珠Z》或多或少是我学习运动的方式,你知道的,就这样。运动和超级赛亚人。我认为这是一个有趣的问题。我不知道答案,是否以某种方式,比如在视觉世界的简化表示上进行预训练,无论是草图还是其他模态,比如,让你更有效地掌握这些概念。我认为这实际上是一个非常有趣的科学问题,我们需要更好地理解它。

红杉合伙人Sonya: 你认为我们是否快要耗尽现有的预训练令牌数量了?还是你认为视频数据非常庞大,实际上它是尚未开发的巨大数据池之一?

Bill: 我是这样考虑的:每个视频比特所包含的智能远低于文本数据。但是,如果你整合所有存在的数据,那么总数会高得多。

所以,为了直接回答你的问题,我认为很难想象会完全耗尽视频数据。它以如此多的方式存在于这个世界上,你可以不断地将更多数据添加到这些预训练运行中,并且在很长一段时间内持续看到收益,我怀疑会是这样。

红杉合伙人Sonya: 你认为我们最终会发现新的物理学吗?在大型语言模型(LLM)的世界里,就像爱因斯坦在白板上思考。这是大型语言模型的思考方式。还有,如果你开发出一个完美的模拟器,并且能够越来越好地模拟物理,你可能会了解到我们尚未了解的世界。

Bill: 我完全认为这有一天肯定会发生。而且,我认为我们可能甚至需要,我们可能需要在模型质量上再来一次阶跃函数式的改变,才能真正达到一个程度,例如,你可以考虑在模型中进行科学实验。但是你可以想象,对吧,有一天你会有一个世界模拟器,它对物理定律的概括性非常好,以至于你甚至不再需要在现实世界中拥有湿实验室。对。你可以直接在Sora中进行生物实验。并且,再说一次,这需要大量的工作才能真正达到一个程度,即你拥有一个足够强大的系统来可靠地做到这一点。但是,在内部,再说一次,你已经看到Sora有点像视频领域的GPT-1时刻。这确实是事情第一次开始在该模态下起作用。所以我们真的把它看作是GPT 3.5,因为它真的能够激发世界的创作灵感,并且真正突破这种可用性障碍,从而看到这些模型的大规模应用。

我们将需要GPT-4级别的突破,才能真正达到这样的程度:就像我们现在在GPT-5中看到的那样,它对科学有用。对。感觉每天在Twitter上,我都能看到另一个凸优化下界被GPT-5 Pro改进。我认为最终我们也会看到同样的事情发生在Sora的科学领域。

红杉合伙人Sonya: 你认为要达到那个目标,需要物理世界的体现吗?或者你认为很多事情实际上可以在模拟中完成?

Bill: 我总是感到惊讶,每次我们将计算能力提高10倍到这些模型中,就像某种魔法一样,以非常有限的改变和我们在其上训练的内容,以及我们所采用的基本方法,就自然而然地产生了。以及我们所做事情的根本性方法。我怀疑一定程度的物理能动性肯定会有所帮助。我很难相信它会让你在模拟碰撞或其他类似事情方面变得更糟。然而,仅视频就非常了不起了。如果它实际上对于构建通用世界模拟器来说是完整的,我也不会感到惊讶。

红杉合伙人Konstantine: 因此,对于通用世界模拟器的概念,一种可以在其中进行科学实验的世界模型。你认为视频是核心,还是视频和文本的某种组合,是组合的数据输入,然后你在这种类型的模型上进行训练?或者它是否会,或者说它是否必须基于更结构化的、已被理解的物理定律以及已被理解的生物学定律?

Bill: 我认为这可能很大程度上取决于你对世界模拟器所设想的具体用例。例如,如果你真的只想构建一个关于篮球比赛如何进行的精确模型,我实际上认为只有视频数据,以及可能还有音频。我觉得这足以构建那个系统。不是我打篮球的。那会是一个不准确的,非常糟糕的篮球运动员。你实际上喜欢Sora目前对人们如何打篮球的理解。Constantine可能和你水平差不多。哇。好的,这让这是有可能的。这是有可能的。

红杉合伙人Sonya: 我觉得他刚才损你了。

Bill: 我喜欢它的准确性,而且比我的好。康斯坦丁,那就像索拉的情况。你也身处索拉。我们来投几个篮。他们会这么说吗?你知道的,我加入。好,我加入。投几个篮。谢谢。托马斯的第一句声明是我也达到了你的水平。

我认为这是一个有趣的问题。比如,在这种通用系统中应该存在哪些模态?当然,如果你增加更多的模态,我很难相信它会降低智能。我也认为可以这样说,仅仅增加更多并不提供显著的边际价值,相比于完全掌握视频和音频,例如。我认为这是一个有趣的开放性问题。我现在还不确定。这是我们需要更多了解的事情。太酷了。

Sora应用的产品哲学:优化创作而非消费

红杉合伙人Konstantine: 索尼娅刚才提到了爱因斯坦在白板前。显然这让我想起了你,托马斯,和你的头发。我也是。这是必然的。好像如果有任何头发能给人时空令牌的感觉,那绝对绝对是你的。在某个时候,比尔,你是这项革命性技术的创造者,它改变了视频创作的方式。在某个时候,你从Soro 1到Soro 2说,嘿,大家一起,你说需要围绕这个开发一个应用程序。开发一个应用程序是有一些好处的。你聚集了世界上一些最优秀的产品人才。OpenAI的这个团队是如何组建起来的?

Thomas: 我的意思是,这个故事从来不像你想象的那么线性。所以峩认为,我的意思是,自从一开始,我们就有一个关于Soro的产品团队。罗汉在Soro 1时期就像是领导这项工作的先锋。但我认为比尔说得对,这真的很像GPT时刻。我们在那里看到了一些非常有趣的东西。但是这些模型不像,没有声音的模型,没有声音的视频。这就像一种非常不同的环境。所以我们正在那个界面上工作,主要针对像产消者这样的人群。另外,我的意思是,罗翰可能会更详细地介绍所有这些。另外,我们也在OpenAI内部探索人工智能的不同社交应用,以及它可能呈现的样子。

我们有很多原型,其中大多数都很糟糕。当我们开始看到一些神奇之处时,实际上是在ImageGen发布之前。我们在内部的社交环境中玩它。而且,看到人们所做的事情,这种社会背景真的很有意思,你会看到人们会获取一张图片,然后对这张图片进行一系列的混音改造。比如说,我不知道,这是一只鸭子。然后现在这只鸭子在某人的头上,现在一切都颠倒了,他们还在抽烟。就像很多奇怪的事情。就像我们当时看到这些,我们就觉得,这是一件非常有趣的事情,在社交媒体上,没人能真正做到这一点。因为创造或改编某样东西太难了。就像这是一个进入门槛很高的行动。也许你得架设好一台摄像机。而且这不仅仅是想到一个点子。实际上涉及到很多事情。因此我们当时想,这是一种非常神奇的行为。我们如何才能将这种行为产品化呢?

我们主要是在考虑将其应用于Sora之外的场景。Sora的一些研究仍在进行中。我的意思是,有一些进展的迹象,但它还没有完全达到产品化的程度。

Bill: 比尔可能在脑海里已经有了一些想法。我能看到未来,但没关系。

Thomas: 我稍微更...还不能完全看到未来。所以我们只是在探索这一点。我想我们尝试了一些事情。然后在某个时候,研究真正显示了即使是迭代式部署也能带来的非常明显的价值,比如,这是人们真正想要的东西。所以我们在两三个月前开始了这项计划。时间不是很长。

Rohan: 就像7月4日那样。是啊,托马斯,你就是那时候消失的。

Thomas: 我就是那时候消失的。然后我们就好像锁定了目标,我们终于要做了。总会有那么一个时刻。我们开始的时候没有任何神奇的功能,只是想,我们先尝试建立一个原生的视频环境,在那里你可以听到全屏的音频。然后我们做了一些快速的生成。结果显示非常、非常酷,非常有趣,非常吸引人。而且因为那个形象和体验,我们有点像在想,这里的魔力是什么?这里的魔力在于创作的准入门槛非常非常低。从Instagram的角度来看,让人们在Instagram上创作几乎是不可能的。而那是人们所做的最有价值的事情。

那么这解锁了什么?图像生成中的那种混音功能可能仍然适用于这里。所以我们集思广益,想出所有关于混音如何运作以及混音在这里意味着什么的点子。其中一个就是这种客串功能,我认为比尔也想到了。但这只是想法,肯定只是想法。但我们只是在产品上拼凑一些东西,看看这是否可行。我我根本不认为它会起作用,但它在清单上。清单上还有其他一些东西。其中一些非常疯狂。

Bill: 你为什么认为它不会奏效?

Thomas: 我不擅长预测技术。但我觉得,我不是很清楚,你可以,获取一个人的肖像,并将其想象成视频形式,以及它是否会奏效。所以我们有不同事物的早期原型,比如视频角落里的人们的反应之类的。但是,当我们看到客串开始奏效,甚至在内部播放时,比如罗恩,你还记得那天吗,我们信息流完全是客串。

Rohan: 它只是从,我们没有那个功能开始的。一旦我们有了那个功能,团队就实现了产品市场契合,我们所产生的一切都是彼此的。你一定看到了表情包的潜力。我的意思是,我想一开始是这样。我们当时就觉得,这太搞笑了。这太棒了。然后过了一个星期左右,我们觉得,这仍然是我们所做的全部。所以这里面有些东西。

Thomas: 我的意思是,起初我们实际上有点像,这好吗?比如,嘿,那些客串,现在全是客串了。

Rohan: 还有其他人关心这些吗?人们关心其他人做事。

Thomas: 我们有点到了那种地步,不,不,这实际上很好。就像它真的,感觉就像我回来观看一样。它确实使它人性化了很多,因为很多AI视频只是那种静态的场景,虽然非常漂亮,非常有趣,可能发生了极其复杂的事情,但它们失去了那种人情味。而且它真的感觉像是又回到了那种状态。

Rohan: 所以从图像生成到图像生成的另一个学习是,图像生成之所以起飞并出现病毒式传播的时刻,是因为我认为你可以用以前不可能的方式将自己置于这些场景中。显然,这种大规模的,比如“把我放在吉卜力工作室的场景中”,人们和他们的偶像自拍等等。所以一旦,一旦你真正考虑过它,就会觉得,客串功能很有意义。你把自己放在所有这些场景中。这对你和你的朋友来说更有趣。这很新颖。那是你以前可以做的事情。

Thomas: 然后它与混音结合,我的意思是,客串表演一开始就像是混音,但后来你开始思考,现在我可以即兴模仿罗翰做某事或者其他什么了。就像比尔,你把他包装在一个玩偶盒子里,然后,它已经被混音了成千上万次,简直疯狂。所以就像是非常、非常疯狂的事情在发生,而且非常涌现。很多我从未想过的事情。

Bill: 实际上,到目前为止,你们有多少代被公开上传过?我不知道。

Thomas: 我知道我大概有11000个左右。我比那少一点。

红杉合伙人Sonya: 哇。什么类型的用户真正坚持使用Sora让你感到惊讶?它真正受谁欢迎?

Rohan: 如果你只是查看最新的动态,就像是源源不断的信息流。实际上,它是时空托马斯模式。那里非常狂野,但这能让你很好地了解到正在发生的一切。我的意思是,我认为我们每天大约有近700万次的生成。所以你可以想象那里有大量的信息。这是我获得产品反馈最喜欢的方式之一。它是如此多样化。人们所做的事情类型,人们的类型,会有各种各样的年龄。有些人只是设想自己出现在励志场景中,有些人只是和朋友们玩梗,有些人客串,还有一些平台上的公众人物也进行了客串。所以峩认为,这种多样性让我感到惊讶。我原本预计会是那种,你知道的,Twitter上的人工智能群体会大量主导信息流。他们肯定主导了媒体周期,至少是我们最常接触到的那些。但就实际使用它的人而言,范围非常广泛。而且,我要说的最后一件事是,它与之前存在的那种小众人工智能电影人群体有了更大的不同,他们是伟大的早期采用者。但现在你得到了这些,我以为它会从那里开始,但感觉它一开始就面向更广泛的人群。我认为登上应用商店的榜首对此有所帮助,而且吸引了那些浏览并看到这个东西的人。

红杉合伙人Konstantine: 我妈妈一直在客串托马斯。对吗?太奇怪了。我们说的是11000,她已经完成了10000。

红杉合伙人Sonya: 托马斯,如果你没错的话,你编写了最初的算法,用于,用于Instagram的,排序,排序算法。Sora的博文中有很多关于你们显然非常有意地想在算法中进行排序的内容。你能,你能谈谈从Instagram学到的经验以及你如何在Sora上应用它吗?

Thomas: 我的意思是,这里面有很多内容要讲。我认为当我们考虑这些平台或者专门考虑Sora时,首先要考虑的是我之前提到的关于创作的事情。所以,所以基本上让每个人都能成为这个平台上的创作者。这与像Instagram这样的环境非常非常不同,在Instagram上,创作者呈现出一种极端的幂律分布。而且幂律自然变得更加,狭窄。怎么说合适呢,但更加,头部集中。

所以有时我觉得我必须为Instagram的,算法方面辩护。我们实际上做这件事是有原因的,我的意思是,我们做这件事是有原因的。这是为了解决一个问题。这不仅仅是一个随机的决定,为了优化广告或其他类似的东西。我们这样做的原因是,我们注意到Instagram上随着时间的推移,因为它是按时间顺序排列的,所以每个发布内容的人都保证拥有其所有关注者的顶部位置。所以如果你仔细想想,在这种环境下,人们的动机实际上是不断创作,因为他们保证在创作时可以进行分发。随着时间的推移,由于这种幂律变得越来越重,或者说头部越来越重,这些类型的人,他们很棒。他们为生态系统提供了很多价值。但他们开始排挤你真正关心的人。所以,也许你关注了国家地理之类的,不是邓肯国家地理。我喜欢他们,但是,如果他们每天发布20次,你的朋友就不会,他们没有相同的,像优化目标。

Bill: 它们可能只是一张咖啡之类的照片。

Thomas: 这样你就会有20篇国家地理的帖子,然后一张你真正关心的照片,而你从未真正滚动到它。而且这个问题没有太多的解决方案。如果你有一个有保证的排序,其中一个就是你必须取消关注所有这些你可能关心的账户,但关心程度不如那些每天发帖的人。另一个是你必须对,对信息流进行置换。所以我们选择了这条路。我们尝试了。我们在内部进行了测试。这样做是非常有争议的。而且,但我认为你实际上可以像用数学方法算出这个。这就像一个证明,基本上随着时间的推移,你必须控制平台上内容的分发,以防止这类问题,并向人们展示他们真正关心的内容。

所以这就是我们这样做的原因。而且它确实显示了很多价值。我记得早期的测试,稍后我们会讨论相关的数据,但它们实际上非常明确地表明,这种做法能向更多的人展示你所关心的内容。它正在改善你在平台上的体验。实际上促进了内容创作,这很不寻常。它让人们创作更多内容,因为他们看到了更多容易获取的内容。但我也认为这些事情随着时间的推移可能会误入歧途。我不会说Instagram的算法绝对不好或绝对好。但是当我们开始向更多不相关的内容开放,并且广告压力非常大时。这里有一个,还有一个天然的公司激励机制,就是为了盲目消费而优化,因为这是你赚钱的方式。所以,也许是更便宜的内容,或者只是让人们不停地滚动浏览。这也会鼓励人们减少创作,因为这只是一种更无脑的滚动模式。

红杉合伙人Konstantine: 你们已经非常具体地承诺会采取措施来防止这种行为。我们的确承诺了,

Thomas: 我们有很多缓解措施已经到位,但我认为,对我来说,真正重要的是,作为一个平台,我们试图做什么?我认为这项技术的魔力在于每个人都是创作者。所以我们希望这个信息流能够针对你的创作进行优化,以激励你进行创作。有时候,当你想到灵感时,你会想到,这是一个美丽而疯狂的场景。如此优雅。当我想起那个的时候,我想到了像模因文化或者一些非常有趣的东西,或者像,那太酷了。我对此有个即兴发挥。我认为当你在浏览信息流时,这是一种非常不同的脑部模式。当然我们还有很多其他的措施。所以,我认为它始于一种激励。我们的激励就在这里,即鼓励生态系统中更多的创造。

但肯定有一些我们想要阻止的用例。我们不可能每次都做对。这非常具有挑战性。这是一个非常鲜活的系统。同样,当你没有数据,不知道该推荐什么,或者不知道平台将如何发展时,编写推荐系统也非常困难。但这基本上就是我对信息流激励机制的看法。还有 Ron,我们有很多缓解措施,我认为你一直在考虑,甚至可能比我更深入地思考,关于如何防止可能出现的极端情况。所以,我不知道你是否想谈一谈。

Rohan: 好的,我很乐意。但在你开始之前,我想补充一点,那就是优化创作的既定意图运作得非常好。几乎百分之百的人,在应用程序上通过邀请码后,最终都会在第一天进行创作。当他们回来时,大约有 70% 的时间他们会进行创作,而且实际上有 30% 的人甚至会发布到信息流中。所以不仅仅是为自己创作,他们实际上是在向生态系统发布内容,这充分证明了该模式有多么有趣。而且我们正在优化的目标现在实际上运作得相当不错。

但除此之外,我的意思是,最重要的事情之一是,我认为我们不希望这仅仅是像一种无脑的滚动浏览,而不仅仅是在排名算法中优化创作。我们可以做一些事情,比如试图让你摆脱这种心流状态,就是像消费一样,把你推入创作模式。我认为有一篇很棒的文章,叫做赌场设计的曲线本质。这样你就不需要做任何决定。就像你走进一个圆圈,没有窗户,诸如此类的东西。我们可以有意识地不做那种事情。无论是信息流单元,比如,嘿,你刚刚浏览了一些这个领域的视频。为什么不尝试创作一些东西,或者其他一些方法来让你摆脱那种状态。实际上我们在产品中也有类似的东西。这些是我想到的一些事情。

红杉合伙人Sonya: 我真的很赞赏你们所做的一切,要确保世界存在这样一种版本,即作为世界模拟器的视频模型可能最终导致我们,每个人都退回到自己的电脑屏幕前,变得沉迷并退缩到自己的内心世界。而且我认为,你们在多大程度上优先考虑了人类因素和社会因素,我认为你们在这方面投入的精力确实显现出来了。

Rohan: 我认为我们不会仅仅发布一个人工智能内容的推送,那样没有一种人情味,我并不认为那样会让我们兴奋。当我们一旦有了产品,我们有了Cameo,并且我们内部有了这种感觉。我们觉得,这实际上有点不一样,

Thomas: 我认为这并不是完全显而易见的。再次说明,经历这一切就像是一场非常疯狂的冲刺。对我们来说,会涌现出什么并不是非常明显,但我认为这个想法,事后看来是有道理的,但这完全不是一个显而易见的产品决策。Cameo会成为关键。你当然只是想看到你的朋友们做一些很酷的事情。所以这说得通。但是,我实际上从来没有那么害怕那个疯狂的产品阶段的竞争压力。因为我就想,我们,我们好像有这些,所有这些事后看来很明显,但当时并不明显的非同小可的决定,我们在彼此之上构建。Cameo。还有一种Cameo的版本,你有一个疯狂的流程。那只是为你准备的。这是一个单人模式的Cameo,你通过这个引导流程,做你的事情。但是我们已经看到了这些有趣的动态,比如,我可以拿我的视频。这太疯狂了。比如,然后我们可以来一场争论,或者,我要来一场动漫战斗。没关系。我就想,这,这实际上就是人的因素。这就是,这就是它的魔力所在。实际上,它比许多社交网络更具社交性,即使它都是人工智能生成的内容。非常不直观。

API、游戏与创意生态

红杉合伙人Sonya: 它是SORA 2的单独微调版本,还是说,它是一个独立于API提供的模型,或者它们是同一个?

Bill: 在应用程序和产品之间。所以我们目前正在API和应用程序中以相同的状态公开这些模型。

红杉合伙人Sonya: 好的。真有趣。你看到人们在API端做什么?这和人们在消费者应用上所做的事情类型不同吗?

Rohan: 即使是启动API的动机也只是为了支持这些长尾用例。就像我们有一个愿景,希望通过这项技术能够实现聊天GPT规模级别的消费者受众,但市面上也存在大量非常小众的东西。你可以想象,有了SORA 1,我们走出去与很多工作室进行了交流。我们从他们那里听到的是,他们希望以这种特定的方式将其集成到他们堆栈的这个特定部分中。我们很乐意支持所有这些长尾用例,但我们不想为此构建一千种不同的接口。这就是我们目前为止对API感到兴奋的事情。一直以来,你知道的,它有点像那些比较小众的公司,不试图构建第一方社交应用,但也许,你知道的,有一些电影制作类的受众或者他们支持的人。或者甚至像,我们肯定,我们已经看到一些人试图,我想有一个,一些公司正在用CAD做一些事情,他们正在使用SORA。所以有一些很棒的用例。我认为我们还在了解它们是什么。

Thomas: 我认为用这些东西可以做很多事情。我一直都在考虑游戏,只是基于我的背景,人工智能和游戏总是一个非常有争议的话题,但很明显,这里有一个位置和一个角色。也许它不必中断创作过程。它可以增强它。而且,我很高兴看到其中一些用例出现。

Bill: 你认为现在的视频模型足够好,人们可以在API之上构建视频游戏吗,或者你认为我们还需要一两个版本才能实现?

Thomas: 我对此有自己的看法。

Rohan: 我想说,永远不要低估人们利用技术进行创作的能力。就像有人能够开发一款游戏,也许已经开发过一款游戏。它会感觉、看起来和体验起来像一个,很明显这个模型存在延迟。所以你必须做各种疯狂的事情来绕过这个问题。

Thomas: 但我觉得,你的脑海里会立刻想到你在游戏中会做的那些显而易见的事情。我们已经看到过一些这样的东西,当然在研究博客和类似的东西中。我的想法通常是,这就像一个创造性的工具。这有点不同。以及真正让我兴奋的那类游戏。我会随便说一个,比如,有一个游戏叫无限工匠(infinite craft),这是世界上最简单的游戏。这是一个网页游戏,你只需要获取元素。就像火、水、土。你就像有4个元素开始。然后你拖动它们,它们会组合成新的东西。而它结合的东西它是基于大型语言模型(LLM)的。所以就像火、土,可能变成火山。然后火山加水可能会变成水下火山或哥斯拉之类的东西。不知何故,你总是会得到哥斯拉。

但是,那是一个游戏,这有点道理,你真的不需要一个合成树。大型语言模型(LLM)可以推导出这个合成树,这是一个发现的过程。所以我认为在这个领域有很多未开发的潜力,我再次强调,我喜欢发现的过程这个想法。事实上,我对大型语言模型和视频模型的哲学观点在某种程度上来说,这是一个发现的过程。这些都在权重里。你只是用像秘密代码一样的东西解锁它,也就是你的提示词。我喜欢这样。这是,这是非常神奇的。这在游戏里一直都有。这是最让我兴奋的事情。它是发现新的东西,特别是如果这是一个真正的发现。不是别人放进去的。也许他们只是启用了围绕它的机制。所以我认为在游戏领域存在着巨大的机遇。当你思考游戏以及不同的事物时,就会以一种非常不同的方式拥抱这项技术。

红杉合伙人Sonya: 这让我想起GPT-3最早的一些用例,就是那种文本游戏。它与你所认为的那种可玩电子游戏不同,但实际上很多机制都非常像游戏。

Thomas: 没错。我认为仍然存在制约,而且我认为这将是机制设计。那仍然是非常人性化的。就像许多早期的GPT-3游戏一样,它们有点像,玩了一会儿很有趣。然后它就有点失控了,你会想,我真的不知道我在做什么了。但再说一次,就像这有点,在某种程度上,Sora给人的感觉有点像那样,它带有一点游戏的,DNA在里面,让人感觉非常有趣、不同且具有探索性。所以我喜欢类似的事情。而且,我认为会有更多我们甚至无法想到的用例。它太有创造力了。

红杉合伙人Sonya: 你们在创意电影制作方面看到了什么?比如,那是重要的目标市场吗?你们是想赋能长尾,还是想赋能创意市场的头部,可以这么说?

Bill: 这真是一个好问题。我们从那些真正愿意全力以赴的创意者那里受益匪浅,即使是对早期技术,比如Dolly 1、Dolly 2,并真正帮助我们沿着道路前进。而且,我认为重要的是,我们继续为这些人构建东西。而且我们正在研究一些更针对像创意高级用户长期使用的东西。

同时,我确实认为人工智能是一种非常民主化的工具,对吧。在最好的情况下。那么Sora平台总体上最美妙的地方是什么,对吧。就是每当有人取得成功时,对吧。你会看到其中一个漂亮的动漫提示词出现在所有人的信息流顶部。就像任何人都可以去修改它,对吧。每个人都有能力在此基础上进行构建,并向所有带着关于如何充分利用这些工具的惊人知识的人学习。所以我真的很高兴看到人类的净创造力因此而提高。但我认为其中很大一部分,对吧。是继续赋能那些始终处于前沿的人,比如那些更专业的,像创作者一样的人。因此,我们也希望继续对它们进行投资。

红杉合伙人Konstantine: 我们已经钻研了一段时间,就像差不多有两年时间,研究关于制作电影长片内容的愿景。比如,你拥有这些精彩的客串和更短的内容,但在某个时候,对于单个创作者来说,这已经是你长期以来一直感到兴奋的事情。我们什么时候能做到?我们是否会达到这样的程度:有一部在Sora 2上创作的电影长片,以及我们该如何观看它?是在Sora应用程序里吗?还是发布在网上的其他地方?你会去电影院观看吗?

Bill: 这是一个很好的问题。我的意思是,我认为这将在一定程度上分阶段发生。所以,如果你们看了,对吧,那个发布视频,我的意思是,那是丹尼尔·弗拉登制作的,他在Sora团队,而且他已经在使用这些工具了,对吧。能够在最多几天内制作出这些令人难以置信的引人入胜的短篇故事。我的意思是,他完全是独自一人在几乎没有时间的情况下制作的。而且他一直在像在OpenAI的Twitter上发布新的作品。显然,这大大压缩了与电影制作相关的延迟。

我认为要达到真正任何人都能做到这一点的程度,对吧,就像任何孩子在家里都可以启动这个应用程序或Sora.com之类的东西,然后去制作它。这实际上是一个视频模型的经济学问题。视频是最密集的,计算密集程度最高的模态。它是非常昂贵的。而且,我们的研究团队正在取得良好的进展,比如真正地不断寻找方法,使长期而言,每个人都能负担得起。比如现在,Sora应用完全是免费的。未来,可能会出现付费获得更多模型访问权限的方式,因为这是我们真正能够进一步扩展的唯一途径。但是,我认为我们离任何人都可以真正拥有制作惊人内容的工具的世界已经不远了。我认为这会产生很多烂片。但是同样地,很可能下一位伟大的电影导演正坐在,你知道的,他们父母的家里,可能还在上高中之类的,只是还没有获得投资或工具来实现他们的愿景。我们将会发现,将这项技术提供给全世界会产生绝对令人惊叹的东西。

红杉合伙人Sonya: 我期待着康斯坦丁的希腊奥德赛长篇电影在您附近的电影院上映。

红杉合伙人Konstantine: 我们都在一起。不同的角色。

Thomas: 我扮演独眼巨人。这很棒。我想再补充一点,我从推荐系统中一遍又一遍地学到的是,让人们更具创造力的工具,对于普遍提升人们的创造力来说,将是一个巨大的突破。而且你不需要接触到电影制作设备之类的东西。但我们始终看到,内容在某种程度上也是一种社会现象。就像电影和所有那些东西一样,你看到的一切,除了实际内容本身之外,也在某种程度上是一种社会现象。因此,我认为我们将进入一个非常有趣的世界,在那里,有很多人在创作,也有很多内容,甚至人们关注和观看这些内容的想法将变得越来越重要。而且我认为这实际上会提升内容的质量,因为任何人都可以创作,而实际上消费将会受到相当大的限制,这与我们今天所处的世界非常不同。

红杉合伙人Sonya: 你们在对待知识产权所有者方面非常周到和用心。你能谈谈这方面吗?

Bill: 我们与整个行业的很多人都建立了密切的合作关系,并且真的在努力向他们展示这种新技术。这对所有权利持有者来说,实际上是一个巨大的价值主张。对。而且就像我们从交谈的人们那里听到了很多兴奋之情一样,他们真的认为这你知道的,一个新领域,再次,你知道的,世界上每个孩子都有能力去使用一些受人喜爱的知识产权,并真正以一种比以前可能的方式更加个人化和定制化的方式将其带入他们的生活。

同时,我们真的要确保我们以正确的方式来做这件事。所以我们一直在努力听取反馈,并以一种我们知道的方式来引导我们的路线图,这样用户在使用这个知识产权时会获得很棒的体验,同时权利持有者也会得到适当的货币化和奖励,基本上,每个人都会赢。所以我们现在正在积极努力地确定关于我们将如何,你知道的,例如,实现的具体细节。所以,如果你想让你最喜欢的角色在一些受人喜爱的电影或其他什么中客串一下,你可以以一种你有访问权限的方式来做到这一点,但货币化将回流到权利持有者手中。对。所以真的在努力弄清楚这种创作者的新经济模式。我们现在必须从头开始创建这个。关于如何以正确的方式做到这一点,有很多深刻的问题。而且,就像这款应用程序的所有功能一样,我们以开放的心态对待它,听取反馈并快速迭代。我们不确定它最终会发展成什么样,但我们正在与人们密切合作以弄清楚这一点。

红杉合伙人Sonya: 真的很酷。接下来是什么?

长期愿景:通向数字克隆与多元宇宙

Bill: 宠物。我想。我是说,一个,一个。对不起,什么?

红杉合伙人Sonya: 这是需求最多的功能之一吗?很好,很好。

Bill: 对我来说是。

红杉合伙人Konstantine: 比尔要求很高。我会提醒我们,我们刚才还在谈论治愈疾病和榜样。现在我们谈到未来了。这真了不起。

Bill: 不,实际上是。所以那绝对是真的。我们已经承诺了。它要来了。我保证。

Thomas: 当我们玩他的火箭时,我们实际上把比尔的狗当成了吉祥物。

Bill: 最乖的男孩。

Thomas: 而且实际上,能以宠物为特色非常、非常酷。你可以想象那会发展成什么样。它不一定非得是宠物。可以是任何东西。钟表或者你拥有的任何东西。

红杉合伙人Konstantine: 你有一个特别的钟表。

Thomas: 实际上,它被翻新过了。

Bill: 在托马斯向我展示这个钟表之前,我没觉得它会如此引人注目。它就像一个有知觉的时钟。它就像是基于一个真正的时钟。

Thomas: 我有一个时钟。我的父亲,我的父亲曾一度是个技术人员。是Veritas公司在他过周年纪念日之类的日子时送给他的一个时钟。总之,我就把它放在我的桌子之类的某个地方。然后有一集老的《辛普森一家》,他们谈论一个会走路的时钟。不知为何,这在过去的30年里一直在我的脑海里挥之不去。所以峩总是会,他们说一些笑话,然后就会想,那是一个会走路的时钟吗,一个会走路的时钟?这就像行走的钟表。然后不,伙计,那是我的狗。

Bill: 所以它在我脑海里连接起来,我就想,好的,火箭行走的钟表。然后我就试了试。托马斯是钟表的深层地板。这就是人工智能(A.I.)。赋能的。

Thomas: 所以它与我的大脑连接起来。我们一直在尝试这个,只是看看我们是否能让它工作,以及那里是否有什么特别之处,这也是成为SOAR团队乐趣的一部分,你可以玩这种新兴的、疯狂的技术。而且也许它会做一些你甚至没有预料到的事情。所以我录制了一个两秒钟的钟表视频,然后我给它一些客串指令。我说,你就是一个行走的钟表。你是一个行走的钟表。

你用你自己的方式说话,你是一个角色。然后我生成了我的第一个视频,它太疯狂了。这太疯狂了。这是一个行走的钟表。然后我还有一个视频,它在和比尔说话,比尔说,我没想到它会成功加入宠物客串功能。然后行走的钟表说,我来了。我刚刚成功加入。所以这一切都是内在的手段。

红杉合伙人Sonya: 谈谈涌现的知识产权。当你有一个行走的钟表时,谁还需要宝可梦?

Rohan: 最伟大的事情是什么?关于未来,我想补充一点,关于故事片的问题,我一直在思考的是,那实际上会是什么样子?我认为我的,我的意思是,需要声明的是,比尔是这里唯一一个擅长预测未来的人。但我的感觉是,随着我们接触更长的形式,我们等同于故事片的东西,它的外观和感觉将与今天的故事片非常、非常不同。我不知道那具体是什么样子,但我在创作者和未来世界的主题上,我认为一种新的媒介和一类新的创社者,新的类别可能包括许多现有的创作者,并支持现有的媒介和诸如此类的东西。

但我认为我们还处于早期阶段,我认为这将是下一个电影产业,而不是考虑这是一个故事片。但我认为那里会有些东西,会有些轶事。我希望这是真的,因为我一直这么说。但显然当录像机,风靡全球的时候,人们做的第一件事就是录制戏剧。所以,就像用录像机能做的最无聊的事情一样,这有什么意义呢?人们不必到处旅行去演戏了。我们可以直接拍摄他们并分发。然后有人说,等等。我们可以制作一部电影,并在所有这些不同的区域进行拍摄。我觉得我们仍然处于许多不同事物的早期阶段,人们将利用这项技术做很多事情,特别是随着延迟和时长等各种限制的改变。

红杉合伙人Konstantine: 酷炫又有趣的电影史。极客事实是,最初的视频之一,我们也应该核实一下,但我认为最初的视频是在半岛的下方制作的,目的是为了解决一个关于马在飞奔时是否四条腿都离开地面的赌注。我能看到一个拥有新的世界,这是一个新的科学发现的例子。人们实际上并没有对此的答案。既然你有了新的模拟格式,我们能在其中发现什么呢?

Bill: 这将会是疯狂的。我认为,这里更广泛的一点是,这个应用程序现在在很多方面都让人感觉非常熟悉,对吧?它的核心就像一个社交媒体网络。但从根本上说,就像我们内部真正看待它的方式,对吧?通过Cameo,我们已经引入了向Sora提供关于你自己的信息的最低带宽方式,对吧?关于你的外貌,关于你的声音等等。你可以想象,随着时间的推移,这种带宽将会大大增加,对吧?因此,该模型能深刻理解你与他人的关系。它理解的,不仅仅是你某一天看起来怎么样。它是,看到你的完整,比如你如何长大,所有关于你自己的这些细节,并且真的能够几乎像一个数字克隆一样运作,对吧?

因此,确实存在一个世界,Sora应用程序几乎变成了运行在你手机上的迷你替代现实。你拥有你自己的多个版本,可以离开并与其他人的数字克隆互动。你可以做知识工作。这不仅仅是为了娱乐,对吧?而且它真的更多地演变成一个平台,这与这些世界模拟能力长期发展的方向非常一致。而且我认为,当这种情况发生时,我们将看到的沉浸式事物将是疯狂的。而且,对于OpenAI来说,全面地,以一种我们不仅仅是在世界上投下重磅炸弹的方式来迭代地部署技术,这一点非常重要。当出现一些重大的研究突破时,我们希望社会与技术共同进化。所以这就是为什么我们真的认为现在做这件事很重要,并且以一种你知道的方式去做,我们已经达到了,再次,这种类似于视频领域的GPT 3.5时刻。让我们确保世界意识到现在可能发生的事情,并且,开始让社会适应,并开始弄清楚这种更长远愿景的规则,在这种愿景中,再次,你自己的副本在Sora和以太中四处运行,就像执行任务并向现实世界报告一样,因为这就是我们长期发展的方向。太酷了。

红杉合伙人Sonya: 所以你们在构建多元宇宙。

Bill: 实际上,有点像。好的。

红杉合伙人Sonya: 那么,Timmy和我可以在那里找到我的灵魂伴侣吗?

Bill: 我的意思是,在多元宇宙中一切皆有可能。

红杉合伙人Sonya: 这是对所有人的行动号召。这有点疯狂,虽然,因为现在我听起来会完全疯癫。

Bill: 但是如果我们在一个计算环境中,你正在构建一个完美的模拟器。

红杉合伙人Sonya: 这其实就是你最终理解并挣脱计算环境的方式,对吧?我们是否正在接近母体的核心?这里有一些非常深刻的存在主义问题。

Bill: 你们认为我们被模拟的概率(P)是多少?这正在上升。我也是。

红杉合伙人Konstantine: 你的概率(P)是多少?我情绪低落。是啊。老天。但没事,还好。真的吗?我尊重这一点。我只是觉得,你知道吗?有时候必须面对现实。是啊。

Bill: 我感觉我没有达到稳定的60%。我不知道。就像目前很可能的情况。

红杉合伙人Sonya: 我也这么认为。

Bill:

红杉合伙人Konstantine: 零。所以我们可能会对它进行计算。

红杉合伙人Sonya: 一个微不足道的。

红杉合伙人Konstantine: 什么是预言?Sora 10会回答。Sora 10,

红杉合伙人Sonya: 你认为Sora的理论极限是什么?

Bill: 这实际上是一个很好的问题。我对此进行了一些思考。我认为这里存在一个问题。你最终能否在Sora中模拟一个GPU集群,或者类似的东西?我假设对于你可以在这些系统中的一个系统内运行的计算量存在一些非常明确的限制,考虑到你实际上在上面运行的计算量。我还没有对此进行足够深入的思考,但我认为这里有一些,有一些存在性问题需要解决。

红杉合伙人Sonya: 明白了,这就是为什么他的PCIM这么高。

Bill: 太迷人了。哇。

闪电问答

红杉合伙人Konstantine: 我们为团队准备了一些闪电提问环节,这些问题是我们临时生成的。慢慢来,随时回答都可以。迄今为止你在Sora中最喜欢的客串以及发生了什么。这太难了。

Thomas: 我有一个劲爆的。好的。所以,之前有一个抖音的潮流。我沉迷于其中。我不知道为什么,但是这些中国工厂参观的视频,他们会说,你好,我是智利人。这是辣椒工厂。

他们得到一个赞,那就是我。他们展示他们的辣椒工厂,他们说,这是辣椒工厂。你会觉得,这太棒了。或者像,有一个工业的,化学相关的视频。

Thomas: 有一个,我忘了名字,但是有一个工业,化工厂。而且,第一天,我开启了我的客串,选项,因为我就想,我只是想看看会发生什么。而且,第一天深夜,我打开了我的Cameos,我开始被标记在工厂参观,客串中,这些客串都是中文的,我就想,我在,我在辣椒工厂,我太激动了。

我得到了零个赞。我喜欢它。只有我一个人喜欢,但我就想,我是辣椒工厂的人。现在我好像在辣椒工厂剪彩。

红杉合伙人Konstantine: 有趣的事实。实际上,我在现实生活中做过中文工厂参观,它们确实非常史诗级。

Rohan: 有这么一个,我看到马克·库班穿着牛仔短视频跳舞,但那很不错。那个让我觉得,但我的意思是,更多的是回到,比如只是滚动最新的动态,然后看到人们和朋友一起做事的那些有益身心的内容,我觉得这给我带来了最大的快乐,它们不是那种超级受欢迎的,但就像人们只是从和朋友一起制作视频中获得了很多,你知道的,价值,很明显。

Bill: 所以山姆有很多热门歌曲。我喜欢他跳关于GPU之类的K-pop舞蹈的那一个。非常好。实际上,如果我们可以拿到完整歌曲,我会把它放在我的Spotify上。哇。非常好。它就像是Sora生成的。非常引人入胜。好的。

红杉合伙人Konstantine: 这引出了下一个话题。因为你提到了Spotify。人工智能完全生成的人工智能会先赢得什么?

Bill: 奥斯卡奖、格莱美奖、艾美奖。

Rohan: 我认为最合乎逻辑的答案是短片赢得奥斯卡奖。

Thomas: 我认为这可能是对的。

Bill: 我们会因为什么而赢得它?比如,为了短视频。短视频。这将会是短视频三部曲。我们需要新的内容。

Thomas: 我确实认为如果人们以一种有趣的方式将事物拼接在一起。我认为这有一种潜力,你实际上可以开始创作一些非常引人入胜的叙事。而且,我不认为它像,它真的不再感觉像是人工智能了。我看到的内容,就像那样,那实际上是我在Sora身上也注意到的一件事。感觉甚至没有注意到它是人工智能。它只是有点有趣的内容。

Rohan: 这才是更有趣的问题。我们会知道什么?

Thomas: 好吧.

Rohan: 也许已经发生了,也许已经发生了。

红杉合伙人Konstantine: 我觉得对于奥斯卡来说,将会解锁的很酷的事情之一是。历史中史诗故事的这种长尾效应,关于英雄主义和奋斗的故事,以及所有这些因创作成本而被锁定的东西,作为一个历史爱好者,我迫不及ate地想让AI解锁所有这些故事。

红杉合伙人Sonya: 你看过圣经视频应用吗?

红杉合伙人Konstantine: 没有,我没有看过。它真的很棒。

红杉合伙人Sonya: 我稍后会给你看。

红杉合伙人Konstantine: 就像一个完美的例子。或者有部电影,几年前的《最后的决斗》,讲述的是中世纪法国发生的一起非常可怕的犯罪事件,它在历史上具有重要意义,而且,基本上讲述了很多关于人性的事情,它最终被选中,因为好莱坞最终选择了这个关于人性的重要故事,但是在人类历史上还有多少这样的故事呢?这将会非常酷。任何电影或电视节目中最喜欢的角色。

Rohan: 我有一个非常随机的。说吧。你们看过《马达加斯加》里的朱利安国王吗,由萨莎扮演。萨莎·拜伦·科恩饰演一只狐猴。他是一只狐猴。当然。简直太棒了。这是他的幽默感和...适合儿童的故事讲述方式的结合。简直是完美。

Thomas: 我玩很多电子游戏,所以我的意思是,你典型的答案会像是马里奥或者类似的东西。另一个,更深层次的是,我们总是拿说唱者开玩笑,说唱者,说唱者,《啪啦啪啦啪》(PaRappa the Rapper),那款老式PlayStation游戏,是最早的节奏游戏之一,它有着很棒的艺术风格,并且有着很棒的知识产权,就这个小家伙,他是一只狗吗?

Bill: 他是一只狗。这是个不错的选择。

Bill: 当我还是个孩子的时候,我曾经在一段时间内参与宝可梦集换式卡牌游戏的竞技比赛。所以我真的很沉迷于宝可梦的各种细节。所以,我不知道,皮卡丘。 沼跃鱼。

红杉合伙人Konstantine: 超级非共识的冰箱深处之选。第一世界模型,科学发现。尽可能具体。

Bill: 显然你不会说出这个发现。我怀疑它会与经典物理学相关,比如更好的湍流理论之类的。我猜是这样。

Thomas: 我猜想会有类似的事情发生。我当时想,那会是个斯托克斯现象。我不知道。某种流体动力学的东西。那可能很难理解。现在有很多未解决的难题。

Rohan: 我想有时候他们称之为连续介质力学,它介于两者之间,我们没有好的模型来模拟它们,就像你可以进行的模拟迭代次数一样,解锁一些东西,我不,那个领域里的东西。

红杉合伙人Konstantine: 这是我们最后能够准确模拟的东西。

Bill: 我确实认为存在一系列物理现象,对于这些现象,视频数据是一种较差的表示选择。对。比如说,从视频片段中学习高速粒子碰撞真的有效率吗?也许吧。我真的认为视频在以下情况下效果最佳,那就是你试图了解的现象自然地存在于物理世界中。所以,当你需要做量子力学或其他更理论化的学科时,我们没有超越视觉的视频片段。我们手动渲染的用于教育目的的东西。感觉它对于理解这些事情来说是一种较弱的媒介。所以我怀疑那些会是最后考虑的。我想可能是因为我们没有相应的传感器。

红杉合伙人Konstantine: 对。对。

Rohan: 也许我们最后才想模拟的东西,是另一种思考答案的方式。我不知道。我的意思是,人们现在对气味的研究不多,绿色的田野。

红杉合伙人Konstantine: 我一直想跟你说这件事。

Bill: 有点尴尬。我们还在努力弄清楚如何模拟头发糟糕的托马斯。仍然是一个未解决的问题。甚至都不疼。我可以做到。

红杉合伙人Konstantine: 托马斯的头发飘逸。只是普通的狂饮。

Bill: 赶上。

Thomas: 曾经有一轮很好,现在也有一轮很好,都是关于人们秃顶的。我们都在玩球。这是球宝石。我们很好。实际上有点酷。那是,那是我们的用例。那不是,我不太常谈论,但它就像是你秃头时的可视化。每个人都想秃头。不,只是说,你只是在不同的情境中看到自己。我认为这可能非常强大,甚至在某些方面具有治疗作用,在那里你只是喜欢在某种你想要或不想要自己身处的情境中看到自己,然后仅仅是看到,看到你自己。

Rohan: 这是一个真实的用例。

红杉合伙人Konstantine: 各位,非常感谢你们的到来,从时空token到客体永久性,到能够实现科学发现的世界模型,到创作的民主化,一直到行走的时钟。你们已经涵盖了所有内容。非常感谢。未来正由你们创造。谢谢。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。