您当前的位置：首页 > 职场资讯 > 焦点访谈

短短半月混元团队再推进，开源HunyuanWorld-Voyager有何亮点？

来源：网络整理 时间：2025-09-03 作者：佚名 浏览量：

作者江宇

编辑漠影

短短半月，混元团队又向3D生成的“视野盲区”推进了一步。

智东西在九月二日发布消息，当日，腾讯混元团队公布了其HunyuanWorld 1.0世界模型的官方扩展版本“HunyuanWorld-Voyager”，并进行了开源。

这是混元在两个多月时间里，针对3D世界生成系统的第三次推出：7月份，该团队初次将HunyuanWorld 1.0模型开源，使其能够根据文字或图片，创造出可供探索的三维空间；8月份，他们又发布了针对普通显卡优化的轻量版，以此简化了使用条件。

Voyager的目标不再局限于创造一个能被看见的环境，而是开始致力于打造一个既可被探索又能够持续发展的空间。

该技术着重解决现有世界模型在远距离生成和视角统一方面的不足，创新性地采用RGB-D视频协同构建与空间存储方法，能够依据单幅图像和用户指定的相机运动路径，制作出构造连贯、深度均一的点云视频，同时支持转换为通用的三维数据格式。

换言之，它能够将视线范围以外的景象进行恰当的补充，同时持续记录下使用者行经的轨迹，并且在空间内将新的观察点连接起来。

依据斯坦福李飞飞团队负责的WorldScore榜单，Voyager在当前主要世界模型里的平均表现居于首位。

体验指路：

网址为三个点杠三杠双d杠模型点胡源点腾讯点com杠世界杠斜杠

HunyuanWorld-Voyager项目托管于GitHub平台，网址为https://github.com/Tencent-Hunyuan/HunyuanWorld-Voyager。

拥抱未来：https://huggingface.co/tencent/HunyuanWorld-Voyager

技术文档链接为：https://3d-models.hunyuan.tencent.com/voyager/voyager_en/assets/HYWorld_Voyager.pdf，里面包含了相关内容。

一、多种3D任务解锁，直出结果可即用

Voyager不仅承袭了混元世界模型1.0的图像生成功能，还进一步攻克了"使用者偏离初始观察角度后"的完善难题。它的输出能够即时展示，并且可以直接转化为规范的立体数据格式（包括点集、网格模型），无需借助Colmap、VGGT等后续处理软件。

具体来看，Voyager可应用于以下典型任务：

调整画面生成方式：借助键盘或操纵杆确定镜头移动路线，系统据此制作出匹配视角的视频片段，并且确保空间布局维持原状，

进行风格化编辑与控制，能够调整生成视频的视觉风格，并可以局部重新绘制图像，确保内容处于可管理状态，

图像能够转化为构造健全的三维物体，视频也能进行深度信息补充，这些功能有助于进行立体感知和后续的构造工作。

图生3D物体

视频深度估计

二、引入新架构，空间建模能力显著增强

混元世界模型-Voyager版本是对混元世界模型1.0版本后续视角的完善，增设了“全局场景视频生成”与“远距离环境漫游”两个关键功能。

早先，混元世界模型1.0版本能够依据文字或图片来构建可探索的三维场景，同时它会输出通用的三维数据，能够被游戏引擎所接纳。然而，一旦使用者离开了预设的画面区域，所产生的世界范围就会受到限制。Voyager正是为了处理这类被遮挡以及远距离观察的难题而设计的。

1、世界一致的视频扩散

当前，可控制视频制造技术已经展现出建立“世界模型”的潜力，不过这类“图像到视频”的方法大多局限于二维色彩信息，无法真实呈现立体构造，从而影响了互动效果和空间上的统一性。与此不同，直接生成三维场景（例如点云数据、网格模型）能够实现更精确的空间重构，然而因为训练资料和运算能力的制约，这种技术在处理大型场景时难以有效推广。

混元世界模型Voyager融合了影像制造与明确的三维构造两种技术，能够依据用户预设的镜头路径和起始画面，制作出符合空间逻辑的彩色深度影像片段，同时还能将其转化为点状云图的立体信息。

Voyager最早在视频制作领域采用了RGB与深度信息的融合技术，创建了“点云视频”这一概念，通过结合两种模态数据进行联合构建。

1、输入：图片+用户指定的相机轨迹；

2、输出：RGB-D视频序列，每帧均具备像素级深度信息；

腾讯世界模型Voyager开源！三项能力登顶斯坦福WorldScore，平均分第一_腾讯世界模型Voyager开源！三项能力登顶斯坦福WorldScore，平均分第一_

整合流程：首先在空间层面合并RGB图像与深度图，然后于特征层面融合两种模态数据，借助变分自编码器体系探究RGB-D数据的内在模式与生成机制，通过这种方式掌握RGB-D的合成原理。

训练体系包含两个主要部分，分别是处理模块和控制单元，整个过程依托Hunyuan-Video DiT架构展开。

另外，为了满足训练要求，混元团队开发了一个具备扩展能力的数据制作系统，该系统能自动分析任何输入的视频内容，测算出相机姿态和序列数据，不再需要人工进行标记，可以大量生产适合RGB-D建模的学习资料，Voyager借助这个系统，将实际拍摄的视频和通过虚幻引擎制作的数据结合起来，建立了一个拥有超过十万段视频片段的庞大学习库。

这项构造使Voyager拥有直接生成立体影像的机能，能够一次性完成三维数据的构建，并且无需经过再次加工，所获取的立体图像在空间布局上保持连贯，数据格式也完全一致。

2、长距离世界探索

Voyager提出了一种可扩展的缓存方案，该方案能够保证空间上的一致性，从而打破了远距离探索世界的障碍。

先生成一个初始场景点云数据集，这个数据集来源于HunyuanWorld 1.0版本，接下来要把它存入缓存中，作为后续工作的基础，

2、再将缓存投影至用户设定的相机视角；

通过运用扩散模型来制作全新角度的图像，同时持续地刷新存储内容，最终能够构建出一个可以适应任何相机移动路径的完整循环体系。

这种技术融合了空间构造的识记、观察角度的调节以及不同影像间的协调性，表明使用者能够仿照单机游戏的体验进行无拘移动，其足迹所至之处，系统都能进行填充，且维持形状的统一性。

三、三项实验：验证空间一致性与重建质量

为深入检测HunyuanWorld-Voyager的功能水平，混元团队针对视频制作水准、立体场景复原效果及虚拟世界构建技艺三大层面开展严谨测试，囊括色彩视频清晰度、形状统一性以及远距离空间呈现等众多考察点。

1. 视频生成：相似性与结构性指标均领先

在视频制作领域，混元团队从RealEstate10K数据包里挑选了150个视频片段，接着把结果和四种公开的相机操控视频制作技术做了对照分析。

结果显示，Voyager在全部指标上均优于现有方法。

在质量评估方面，Voyager能够制作出更加丰富、布局规整的动态画面片段，特别是在细微之处保存得相当好。举例来说，当镜头剧烈晃动时，别的技术常常会形成光晕效应或画面结构失真，但Voyager依然能够精确再现原始影像里的物品轮廓和表面纹理特征。

2. 场景重建能力：融合RGB-D，三维结构更准确

Voyager在场景生成领域展现了其RGB-D视频序列对三维结构复原的辅助作用。混元团队借助VGGT方法完成后续整合步骤，检测核心模型生成的RGB影像能否有效促成高精度点云的构建。

实验数据揭示，即便在仅运用RGB图像进行重建的情况下，Voyager生成的视频在几何上的一致性也比其他方法表现更佳；而一旦整合了原始深度信息来初始化点云数据，重建的精确度就会获得显著增强。

在三维高斯喷溅作业里，Voyager能够完整复现出吊灯这类复杂构造的形态，但其余方式在轮廓构造和区域细部上常常有欠缺。

3. 世界生成能力：跨域泛化与长距离空间表达能力增强

在难度更高的WorldScore静态基准测试里，Voyager依然表现突出。这个基准测试用来评估模型在开放场景中构建世界的能力，特别看重光学运动操控能力以及空间上的一致性表现。

Voyager在此次任务中取得了最优的平均分数，这表明它的空间统一建模系统具有在不同数据类型间进行推广应用的能力。

另外，因为设定相同，Voyager在维持稳定性的同时，相机活动范围显著大于参照系统，它在处理长轨迹构建和多角度连贯性管理方面表现更佳。

结语：让生成的世界走得更远

Voyager实现了从固定环境到可自由移动的跨越，并进一步融合了丰富的深度数据与维度延伸，从而弥补了混元世界体系在空间连贯性方面的核心短板。

通过文字或图像创造一个起始画面，然后依照用户设定的镜头移动路径来扩展新的观察角度，这种“边移动边创造”的思路，正逐渐构成AI认识世界的一种新方式。

分享到：

上一篇：深夜写字楼三盏灯亮，35+的你还在埋下一篇：理想i6起售价或低于23万元，官方为

短短半月混元团队再推进，开源HunyuanWorld-Voyager有何亮点？

用微信扫一扫