腾讯混元3D世界模型开源！一句话，一张图，造一个世界-新科技-资讯-头部财经

腾讯混元3D世界模型开源！一句话，一张图，造一个世界

资讯 » 新科技 2025-07-27

智东西AI前瞻（公众号：zhidxcomAI）

作者 | 江宇

编辑 | 漠影

智东西AI前瞻7月27日报道，今日，腾讯混元正式发布3D世界模型1.0，并同步开源模型能力。

这是腾讯首次将3D内容生成从“物体级”扩展至“世界级”，用户只需一句话或一张图，即可生成一个360度沉浸式、可漫游、可编辑的三维虚拟世界。

腾讯混元3D团队在接受智东西等媒体采访时称，世界模型1.0兼顾生成质量与工业应用可落地性，也初步应用于游戏开发、具身智能仿真、XR内容制作等场景。近日，该模型也被AI设计Agent平台Lovart等正式接入。

体验指路：https://3d.hunyuan.tencent.com/sceneTo3D

Github项目地址：https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0

项目主页：https://3d-models.hunyuan.tencent.com/world/

Hugging Face、模型地址：https://huggingface.co/tencent/HunyuanWorld-1

一、从资产到世界，3D生成拓展到“可漫游空间”

混元3D世界模型1.0是腾讯首次将AI生成能力从单个3D物体，扩展至整套可编辑、可导出的360度虚拟世界构建流程。

▲效果图（图源：混元官方）

该模型支持文本与图像输入，用户只需一句描述或一张参考图，即可生成一个具备空间一致性、支持自由漫游的3D场景。

与传统2D全景生成或静态3D模型不同，混元3D世界模型具备“能走、能用、能改”的三重特点：

1、生成内容为完整封闭场景，用户不仅可原地环视，还能通过键盘控制视角、方向，在空间中自由行走、漫游。

2、生成结果支持标准3D Mesh格式输出，兼容Unity、Unreal、Blender等主流引擎，可直接用于游戏原型验证、动画制作或仿真建模。

▲效果图（图源：混元官方）

3、该模型基于自研的语义层次化算法，将场景结构拆解为前景物体、地形地貌与天空贴图等模块，用户可对局部元素进行结构级修改。

▲混元世界模型1.0方法流程图（图源：混元官方）

二、从一张图到一个空间，混元怎么把世界“拼”出来？

混元团队在架构设计上引入了3D与2D融合方案：前景采用高保真3D建模，中景通过多视角补齐完成空间闭合，远景与天空则以图像方式渲染，实现兼顾细节质量与生成效率的折中。

为了提升模型的泛化能力与稳定性，该系统目前仅支持风格化图片、简洁构图、平视视角等输入，能够在有限样本下准确解析语义意图。

此外，混元还对模型的生成质量进行了定量评估，在纹理细节、美学水准、指令遵循等维度全面超越当前SOTA开源模型。

▲（图源：混元官方）

目前，该系统已支持初步的漫游交互与局部模型编辑，后续将拓展动作层建模能力，引入更强的物理仿真模块与跨平台输出标准。

三、体验：全景能看，场景能走，还能动手改

1、360度全景图：快速生成，初具细节

文生场景

在不包含人物的前提下，智东西点击系统内“随机”按钮，系统生成如下指令：“硅基树木与荧光植物，浮空孢子囊飘散，生物朋克生态，阿凡达电影概念艺术，紫蓝渐变色调。”

效果如下：

模型基本契合设定场景风格，尤其在近景处理上表现出一定细节感，如地表草根清晰可辨。不过，整体细节仍略显空泛，若未来支持对话式增补，有望进一步提升沉浸感与编辑灵活性。

图生场景

▲图片由AI生成。

智东西上传一张风格相近的参考图后，系统在理解与还原方面的表现显著提升，色彩、构图和场景一致性均优于文生模式。

2、漫游场景：可操作，可导出

文生场景

智东西编写了一段灵感源自“塞尔达传说”的复杂指令，要求构建一个融合火山、古树与漂浮岛屿的幻想高原。

系统生成的场景除还原度高，还具备“可编辑场景”能力。用户可通过GLB/PLY格式图层，对局部模型进行拖拽、旋转与缩放，并导出源文件供后续使用。

图生场景

在“图生场景”的功能体验中，智东西上传一张偏古风的游戏场景图进行生成。

▲图片由AI生成。

系统生成画面整体符合原图风格，但由于参考图中元素密集，AI在切分图层时准确度有限，影响后续编辑体验。

当前版本已初步支持基础漫游操作与模型局部编辑，仍存在部分角度生成不全、边界穿透等问题。若未来支持“以图续图”及生成链路简化，整体的可探索性与用户体验将显著提升。

结语：3D世界迈向关键一步，可用性已具雏形

就当前版本而言，混元3D世界模型1.0在空间细节密度、图层结构解析与交互完整性方面仍存在一定优化空间，特别是在处理复杂参考图和动态交互时，生成结果尚未完全稳定。

但与此同时，其在生成效率、结构分层、资产导出等核心能力上已具备较强可用性。无论是快速搭建虚拟场景，还是输出可编辑资产用于后续开发，混元模型初步打通了“从生成到应用”的关键环节。

更为重要的是，模型开源为开发者与内容创作者提供了真实可用的工具链入口，降低了3D建模与交互空间构建的技术门槛。

未来，若在可控性、物理仿真、跨平台兼容等方面持续推进，该模型或将成为AIGC三维内容生态的重要基础工具。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

“悟能”具身智能平台发布：4D真实世界构建，让机器人看懂、会动、能交互

2025-07-278阅读
这款智能体很有用！重构舆情分析全流程，事件专报撰写只要20分钟

2025-07-278阅读
开创Agentic AI新篇章，亚马逊云科技揭秘“会干活”的智能体

2025-07-278阅读
2025 WAIC观察：机器人从“秀场”驶向“实训场”，“大脑革命”成关注焦点

2025-07-278阅读
上海浦东AI产业规模破1600亿元，约占全市40%

2025-07-278阅读
4D真实世界构建，商汤发布“悟能”具身智能平台

2025-07-278阅读
科学与健康｜机“慧”共生人形机器人在2025世界人工智能大会展现澎湃动力

2025-07-278阅读
AI新势力！中国移动发布灵犀智能体2.0，让智能生活“说”来就来

2025-07-278阅读
2026 款奔腾小马上市：全系续航 222km，售价 3.49 万元起

2025-07-278阅读
方程豹：赠予暴雨救援车主一辆豹5，启动100万元救援公益基金

2025-07-278阅读