就在几天前,美国卡耐基梅隆大学(CMU)的团队获得了国际计算机视觉大会 ICCV 的年度最佳论文奖。
这项研究来自 CMU 朱俊彦助理教授、刘畅流副教授和德瓦·拉马南(Deva Ramanan)教授联合团队,他们提出了一种新方法 BrickGPT,首次通过端到端的方式,从文本提示生成符合语义、物理稳定且实际可行的积木装配模型。
简言之,他们将搭积木变成一个写句子的过程。比如,你只需要用文字描述“一把吉他”,BrickGPT 就可以生成模型结构,并提供详细的步骤说明,这样你可以按照这些指导用积木一步步搭建出这把吉他。
值得关注的是,这些设计不是虚拟创意而是真正能够实现现实制造。除了能够通过手工组装,还可以让机器人自动组装。
相关论文题目为《从文本生成物理稳定且可建造的积木结构》(Generating Physically Stable and Buildable Brick Structures from Text)[1]。
![]()
图丨相关论文(https://arxiv.org/abs/2505.05469)
那么,这种新方法有哪些独特的创新呢?
现有大多数 3D 生成方法主要关注视觉效果,包括形状的逼真程度、外观细节等,同时更多聚焦在单个整体,如 3D Mesh。尽管也有一些工作中加入了物理约束,但往往聚焦整体结构性质,如质心位置。这类物理约束相对容易表达且可以被现有的物理引擎模拟出来,因此较容易融入到模型学习过程中。
在 BrickGPT 的工作中,研究团队更多聚焦在拼装结构的物理约束,即单个物体不再是一个整体,而是由多个部件组装而成。这类结构在生活中更普遍存在,如制造、家居、电器等无处不在。
如果忽略物理世界的组装限制,一个看起来完美的模型,在现实中很可能没办法组装,甚至无法存在——要么是结构部位容易倒塌,要么是某些部分悬空没有支撑。这些组装件的物理限制往往更复杂,不容易表示且很难被现有的仿真器模拟出来。
为解决物理分析限制的问题,研究团队借助积木,希望通过拼装结构来探索物理稳定性和可实现性。他们提出一种核心思路:把搭积木变成一个写句子的过程。
![]()
图丨BrickGPT 概览(https://avalovelace1.github.io/Bri)
该论文共同第一作者、CMU 博士生邓康乐对 DeepTech 表示:“只要你知道要把哪块积木放到哪个具体的地方,搭积木的每个步骤都可以用文本清晰地表达出来。这样我们就可以用大模型学习如何用语言的形式来表达搭积木的过程。”
但是,要让模型能够理解物理世界,仅靠模型学习是不够的。因此,研究人员在生成过程中还用到了显式物理属性。由于现有物理引擎无法模拟拼装积木的物理特性,他们将积木的物理属性公式转变为一个优化问题,通过求解受力分布,直接把物理属性嵌入到模型中,从而让模型理解积木的物理属性。
需要了解的是,语言模型在写句子的过程中可能会犯错,因为它对物理事实知之甚少,其并不理解搭出来的积木结构背后的物理性质和物理规律。因此,它可能会生成一些在物理世界中不可能存在的积木结构,例如飘在空中的积木或在空间上交叠的积木。
为解决该问题,研究团队首先将搭建积木的过程用结构化表示,即尽可能精简地表达积木块的尺寸,包括长、宽和它的物理空间位置,以让模型可以更好地理解空间上的位置关系。然后,他们还引入了物理约束,用显式的物理分析方法明确告诉模型,所生成的结构是否稳定或在物理世界中是否可能存在。
具体而言,如果模型生成的结构是不稳定的、可能会倒塌的,就需要去掉其中不稳定的结构,让模型更改并重新生成一个能够通过物理判别的结构。通过这样的强制性策略,使模型的结果能够符合物理世界的规律。
![]()
(https://avalovelace1.github.io/BrickGPT/)
为确保数据的多样性,研究人员还构建了一个全新数据集 StableText2Brick,包含 4.7 万个稳定的积木结构,涵盖 2.8 万个来自 ShapeNet 数据集的不同 3D 物体。基于该数据集,能够生成不同的积木布局,即便形状相同,也可以通过不同的积木组合来实现。此外,他们还会对每个不同的结构进行稳定性分析,并只保留稳定的结构。
另一方面,由于基于文本来生成积木结构,只有积木结构数据是不够的。所以研究团队使用了 GPT-4o 模型来为每个积木结构匹配高质量文本信息。他们把积木渲染成多角度的 2D 图片,然后利用该多模态的语言模型根据这些图片生成符合的描述文本。
“在这个过程中,我们让语言模型尽可能生成不同长度及维度的描述,比如 10 个词以内、20 个词以内的描述。这样,我们的数据集在文本多样性方面也得到了补充和提升。”该论文共同第一作者、CMU 博士生刘瑞轩告诉 DeepTech。
![]()
图丨机器人组装积木(该团队)
该技术为 AI 在实体制造和创意设计的应用提供了新的思路,可应用于创意、设计、教育领域等多个领域。
在教育领域,孩子们可基于 BrickGPT 用语言来描述一个积木模型,并自动生成这个积木模型。不仅能激发其创造力和想象力,还可以同时学习到物理知识和空间结构原理。
在创意设计领域,可能一些人经常会产生不错的机械装置设计创意,但受限于不会画机械图纸,也无法确认这些图纸在物理上是否可行,BrickGPT 便可作为一种高效的工具。需要了解的是,生成模型并不是要取代人类的创意,而是帮助人们显著降低门槛、更高效地实现设计想法。
![]()
(https://avalovelace1.github.io/BrickGPT/)
这项研究涉及计算机科学、物理学、机械工程,机器人学等多个领域。巧合的是,其中的两位 PI 都是清华大学和美国加州大学伯克利分校的校友。朱俊彦先后在美国麻省理工学院从事博士后研究以及在 Adobe Research 担任研究员。目前他的研究方向是计算机视觉、图形学、计算摄影和生成模型。在本次研究中,其课题组的重点是为生成模型提供支持。
刘畅流在美国斯坦福大学完成博士后研究后,来到 CMU 任教,并成为 2024 年“35 岁以下科技创新 35 人”(MIT Technology Review Innovators Under 35)中国区入选者之一。她的研究方向包括机器人学习与操作、具身智能、安全控制和形式化方法。在本次研究中,她的课题组聚焦于机器人技术,包括物理分析、机器人操作和制造。
展望未来,该团队表示,他们更长远的目标是探索一种全新的、由生成模型、具身智能驱动的创造范式。这项研究的价值远不止于生成积木,实际上,我们生活中所有的物体本质上都是一种拼装结构。因此,研究团队的终极目标是通过生成模型与机器人技术降低设计门槛和制造门槛,让一切皆可“生成式制造”。
BrickGPT 是该团队向此范式迈出的第一步,他们表示目前也正在积极探索其他方向,例如与 CMU 助理教授李骄阳合作研究多机器人协作的大型复杂装配。同时团队也感谢 Richard King Mellon Foundation 以及 CMU Manufacturing Future Institute 对项目研究的初期支持。
参考资料:
1. 相关论文:https://arxiv.org/abs/2505.05469
2. 代码和模型:https://avalovelace1.github.io/BrickGPT/
3. Ava Pun 个人主页:https://avapun.com/
4. 邓康乐个人主页:https://dunbar12138.github.io/
5. 刘瑞轩个人主页:https://waynekyrie.github.io/
6. Deva Ramanan 个人主页:http://www.cs.cmu.edu/~deva/
7. 朱俊彦个人主页:https://www.cs.cmu.edu/~junyanz/
8. 刘畅流个人主页:https://icontrol.ri.cmu.edu/people/changliu.html
排版:刘雅坤
相关文章
2025-10-264阅读
2025-10-264阅读
2025-10-264阅读
2025-10-264阅读
2025-10-264阅读
2025-10-264阅读
2025-10-264阅读
2025-10-264阅读
2025-10-264阅读
2025-10-264阅读