腾讯混元3D世界模型开源!一句话,一张图,造一个世界

资讯 » 新科技 2025-07-27

智东西AI前瞻(公众号:zhidxcomAI)

作者 | 江宇

编辑 | 漠影

智东西AI前瞻7月27日报道,今日,腾讯混元正式发布3D世界模型1.0,并同步开源模型能力

这是腾讯首次将3D内容生成从“物体级”扩展至“世界级”,用户只需一句话或一张图,即可生成一个360度沉浸式、可漫游、可编辑的三维虚拟世界

腾讯混元3D团队在接受智东西等媒体采访时称,世界模型1.0兼顾生成质量与工业应用可落地性,也初步应用于游戏开发、具身智能仿真、XR内容制作等场景。近日,该模型也被AI设计Agent平台Lovart等正式接入。

体验指路:https://3d.hunyuan.tencent.com/sceneTo3D

Github项目地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0

项目主页:https://3d-models.hunyuan.tencent.com/world/

Hugging Face、模型地址:https://huggingface.co/tencent/HunyuanWorld-1

一、从资产到世界,3D生成拓展到“可漫游空间”

混元3D世界模型1.0是腾讯首次将AI生成能力从单个3D物体,扩展至整套可编辑、可导出的360度虚拟世界构建流程。

▲效果图(图源:混元官方)

该模型支持文本与图像输入,用户只需一句描述或一张参考图,即可生成一个具备空间一致性、支持自由漫游的3D场景。

与传统2D全景生成或静态3D模型不同,混元3D世界模型具备“能走、能用、能改”的三重特点:

1、生成内容为完整封闭场景,用户不仅可原地环视,还能通过键盘控制视角、方向,在空间中自由行走、漫游。

2、生成结果支持标准3D Mesh格式输出,兼容Unity、Unreal、Blender等主流引擎,可直接用于游戏原型验证、动画制作或仿真建模。

▲效果图(图源:混元官方)

3、该模型基于自研的语义层次化算法,将场景结构拆解为前景物体、地形地貌与天空贴图等模块,用户可对局部元素进行结构级修改。

▲混元世界模型1.0方法流程图(图源:混元官方)

二、从一张图到一个空间,混元怎么把世界“拼”出来?

混元团队在架构设计上引入了3D与2D融合方案:前景采用高保真3D建模,中景通过多视角补齐完成空间闭合,远景与天空则以图像方式渲染,实现兼顾细节质量与生成效率的折中。

为了提升模型的泛化能力与稳定性,该系统目前仅支持风格化图片、简洁构图、平视视角等输入,能够在有限样本下准确解析语义意图。

此外,混元还对模型的生成质量进行了定量评估,在纹理细节、美学水准、指令遵循等维度全面超越当前SOTA开源模型

▲(图源:混元官方)

目前,该系统已支持初步的漫游交互与局部模型编辑,后续将拓展动作层建模能力,引入更强的物理仿真模块与跨平台输出标准。

三、体验:全景能看,场景能走,还能动手改

1、360度全景图:快速生成,初具细节

文生场景

在不包含人物的前提下,智东西点击系统内“随机”按钮,系统生成如下指令:“硅基树木与荧光植物,浮空孢子囊飘散,生物朋克生态,阿凡达电影概念艺术,紫蓝渐变色调。”

效果如下:

模型基本契合设定场景风格,尤其在近景处理上表现出一定细节感,如地表草根清晰可辨。不过,整体细节仍略显空泛,若未来支持对话式增补,有望进一步提升沉浸感与编辑灵活性。

图生场景

▲图片由AI生成。

智东西上传一张风格相近的参考图后,系统在理解与还原方面的表现显著提升,色彩、构图和场景一致性均优于文生模式。

2、漫游场景:可操作,可导出

文生场景

智东西编写了一段灵感源自“塞尔达传说”的复杂指令,要求构建一个融合火山、古树与漂浮岛屿的幻想高原。

系统生成的场景除还原度高,还具备“可编辑场景”能力。用户可通过GLB/PLY格式图层,对局部模型进行拖拽、旋转与缩放,并导出源文件供后续使用。

图生场景

在“图生场景”的功能体验中,智东西上传一张偏古风的游戏场景图进行生成。

▲图片由AI生成。

系统生成画面整体符合原图风格,但由于参考图中元素密集,AI在切分图层时准确度有限,影响后续编辑体验。

当前版本已初步支持基础漫游操作与模型局部编辑,仍存在部分角度生成不全、边界穿透等问题。若未来支持“以图续图”及生成链路简化,整体的可探索性与用户体验将显著提升。

结语:3D世界迈向关键一步,可用性已具雏形

就当前版本而言,混元3D世界模型1.0在空间细节密度、图层结构解析与交互完整性方面仍存在一定优化空间,特别是在处理复杂参考图和动态交互时,生成结果尚未完全稳定。

但与此同时,其在生成效率、结构分层、资产导出等核心能力上已具备较强可用性。无论是快速搭建虚拟场景,还是输出可编辑资产用于后续开发,混元模型初步打通了“从生成到应用”的关键环节。

更为重要的是,模型开源为开发者与内容创作者提供了真实可用的工具链入口,降低了3D建模与交互空间构建的技术门槛。

未来,若在可控性、物理仿真、跨平台兼容等方面持续推进,该模型或将成为AIGC三维内容生态的重要基础工具。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。