top of page

世界模型竞赛:李飞飞的 Marble 是游戏规则改变者吗?

The World Model Race: Is Fei-Fei Li's Marble a Game-Changer?

就在 获得大量资金后从隐形模式中浮现出来一年多后,AI 先驱李飞飞的初创公司 World Labs 打响了构建生成式世界模型竞赛的发令枪。它的首个商业产品 Marble 现已公开可用,该平台可将文本提示、图像和视频转化为可编辑、可下载的 3D 环境。此次发布使 World Labs 领先于 Google 的 Genie 等竞争对手,但早期用户反馈揭示了这一新兴技术的巨大潜力与实际障碍。这不仅仅是另一个图像生成器;它是朝着教会机器构建而非仅仅书写迈出的雄心勃勃的一步。

商业世界模型的黎明

The Dawn of Commercial World Models

要理解 Marble 的意义,首先必须掌握 World Model 的概念。与学习词语之间统计关系的 大语言模型(LLM) 不同,a World Model 是一个构建环境内部表征的 AI 系统,旨在理解空间关系、物体恒常性和空间物理,从而预测未来状态并在模拟现实中规划行动。这相当于描述一个房间与构建其功能性数字副本之间的区别。

这是 World Labs 的核心使命,该公司由计算机视觉和 AI 领域领军人物 Fei-Fei Li 联合创立。在一份 recent manifesto 中,李阐述了机器实现“空间智能”的愿景,即超越 LLM 的基于文本的推理,真正“看见并构建”。她认为,要使机器真正智能,它们必须理解事物如何在三维空间中存在和交互。Marble 被呈现为实现这一愿景的第一大步,一款旨在将空间创造带给大众的工具。

Marble 内部:首个商业世界模型的深入剖析

Marble 进入了一个初创公司如 Decart 和 Odyssey 的演示已提供未来一瞥,而 Google's impressive Genie 仍处于有限研究预览阶段的领域。Marble 的独特之处在于专注于创建持久、可下载的 3D 资产,而不是在用户探索时实时生成世界。据 World Labs 联合创始人 Justin Johnson 称,这种方法减少了变形和不一致性,产生了可集成到现有创意工作流中的有形资产。

该平台的输入灵活性是一大卖点。虽然初始 beta 版仅接受单张图像——迫使模型为 360 度视图发明细节——但全面发布允许用户上传多张图像或短视频片段。这使模型能够拼接出对空间更完整的理解,生成相当逼真的真实世界位置的数字孪生。用户可以将创作导出为高斯溅射、网格或视频,准备用于其他应用。

超越生成:AI 原生世界模型编辑器的力量

或许 Marble 最具创新性的功能是其 AI-native editing tools 套件。这正是平台超越简单生成、进入共同创作领域的所在。其核心是 "Chisel," 一个将场景结构与其视觉风格解耦的实验性 3D 编辑器。用户可以使用简单平面和方块勾勒出粗略的空间布局——定义墙壁、家具或其他物体的位置——然后应用文本提示来指定美学。

Johnson 将此过程比作 HTML 提供网站结构而 CSS 添加视觉样式。用户无需 endless re-rolling prompts 来将物体放在正确位置,只需抓住代表沙发的 3D 块并移动它。这种直接操作赋予创作者纯粹基于提示的生成工具中通常缺失的控制水平,解决了艺术家和设计师 want AI to assist 而非取代其创意意图的关键痛点。

进一步增强这种控制的是扩展世界的能力。如果用户移动到生成场景的边缘并发现细节崩溃,他们可以指示模型“expand there”,在该区域生成更多环境。对于更大空间,“composer mode”允许创作者将多个生成的世界拼接在一起,创建广阔多变的虚拟景观。

用户 Verdict:炒作与现实相遇

对于任何突破性技术,初始发布都是抛光演示与用户体验混乱现实的交汇点。来自 Marble's first users 的反馈提供了对这一 World Model 状态的平衡、真实视角。

一方面,结果可能令人惊叹。一位评论者指出:“在 VR 中,场景极其令人印象深刻!”这突显了 World Labs 的一项关键成功;Marble 已与 Vision Pro and Quest 3 headsets 兼容,从照片生成一个世界并步入其中的能力是一种强大的体验。该技术显然对 Johnson 描述为“starved for content”的 VR 行业具有巨大潜力。

打破幻觉:为什么这还不是真正的世界模型

然而,许多用户很快遇到了该技术的当前局限。反馈中反复出现的主题是,Marble 更像是一个“3D Single-Scene Generator”,而非真正的、持续 generated World Model。当用户远离初始生成点或试图近距离检查物体时,完整世界的幻觉迅速破灭。正如一位用户所观察到的,“the quality rapidly breaks down as you investigate them and change perspectives.”

这一反馈指出了所有 World Model 开发者面临的核心挑战。为了维持幻觉,系统需要按需动态填充细节。如果用户走向一扇门,门后的房间需要生成。如果他们近距离看一面墙,需要出现高分辨率纹理。Marble 当前的架构专注于生成单个持久场景,尚不支持这种实时渲染。用户得到的只是渲染精美但最终有限的透视画。

其他实际问题也已浮现。一些用户报告了技术故障,在尝试生成场景时收到“world failed”消息。其他人对 business model 表示沮丧,批评在获取定价细节前需要注册,并指出免费层的限制(如无多图像输入)阻碍了对产品最强大功能的彻底评估。

用新型世界模型重塑创意管道

Redefining Creative Pipelines with a New Kind of World Model

尽管存在当前局限,Marble 在专业创意领域的即时实用性显而易见。Johnson 认为初始用例集中在游戏、电影视觉效果(VFX)和虚拟现实。

在游戏领域,关于生成式 AI 的讨论复杂。recent Game Developers Conference survey 显示三分之一的开发者认为生成式 AI 对行业有负面影响,理由包括知识产权、质量和职位流失担忧。Johnson 澄清 Marble 并非旨在取代整个游戏开发管道。相反,他认为开发者会用它快速生成背景环境和环境空间。这些资产随后可导入 Unity 或 Unreal 等游戏引擎,开发者在那里添加交互元素、逻辑和游戏代码。这是一个增强管道的工具,而非自动化它。

对于 VFX 工作,Marble 为困扰许多 AI video generators 的不一致性和糟糕相机控制提供了一种解决方案。通过创建完整的 3D 资产,它允许艺术家以精确度布置场景,并以帧完美的准确性控制相机运动,这是当前文本到视频模型几乎不可能做到的。

除了娱乐,机器人技术可能是一个意想不到的受益者。在现实世界中训练机器人既昂贵又耗时。正如 Johnson 所指出的,机器人技术没有推动图像和语言模型突破的庞大数据集。像 Marble 这样的生成平台可以显著 easier and cheaper to simulate countless training environments,加速该领域的进步。

通往真正空间智能的道路

Marble 代表了对可能从根本上重塑我们与数字信息交互的技术进行的首次商业探索。它是 Fei-Fei Li 信念的具体体现,即下一代 AI 必须建立在空间理解的基础上。如果 LLM 教会机器用语言推理,这一新型 World Model 旨在教会它们对空间进行推理。

用户反馈显示,旅程远未结束。创建真正动态、持久且可无限探索的世界的技障碍巨大。但通过现在将这些工具交到创作者手中,World Labs 正在启动对技术演化至关重要的反馈循环。前进之路很可能涉及混合方法,将 Marble 的持久资产生成与研究预览中看到的实时渲染相结合。

眼前的问题不是这项技术是否会取代人类艺术家,而是它将如何赋能他们。Chisel 等工具的引入暗示了一个创意控制仍至上的未来,AI 作为强大的协作者而非脱离的自动机服务。下一步可能不是来自研究实验室,而是来自第一波采用这些新工具并构建出连模型开发者都无法预测的东西的创作者。

关于 Marble 和世界模型的常见问题

Frequently Asked Questions about Marble and World Models

Marble 的 3D 环境生成方法与 Google 的 Genie 有何不同?

Marble 专注于从各种输入(文本、图像、视频)创建持久、可下载的 3D environments。这些是静态但可编辑的资产。Google's Genie 基于研究预览,是一个 real-time model,在用户移动时实时生成可交互、可玩的世界,尽管它尚未成为公开可用产品。

World Labs 的“Chisel”编辑器为创作者解决了哪些具体问题?

Chisel 解决了纯粹基于提示的生成中缺乏细粒度控制的问题。它允许创作者首先使用简单的 3D 块(结构)定义场景的空间布局,然后应用文本提示来定义视觉风格。这避免了为调整物体位置而 endless prompt re-rolling 的需要,并赋予用户对场景构图的直接、动手控制。

为什么一些游戏开发者对像 Marble 这样的生成式 AI 工具感到担忧?


game development community 内的担忧通常围绕知识产权盗窃(如果模型在受版权保护的资产上训练)、艺术质量可能下降,以及工作室使用 AI 偷工减料或取代人类艺术家而非赋能他们的风险。关于这些工具是增强还是自动化创意角色存在争议。recent GDC survey 也强调了这些担忧。

用户在使用当前版本的 Marble 时遇到的主要局限是什么?

主要局限是缺乏动态、实时生成。用户发现 3D 场景并非完全可探索;质量在远离初始生成点时显著下降,打破了完整世界的幻觉。其他报告的问题包括偶尔的生成失败和免费使用层的限制。

Marble 生成的资产能否用于 Unreal 或 Unity 等专业游戏引擎?

是的,这是一个核心用例。World Labs 打算让用户将生成的场景导出为网格或其他 3D 资产,然后直接导入 Unity 和 Unreal Engine 等游戏引擎。在那里,开发者可以添加自定义代码、逻辑和交互式游戏元素。

Fei-Fei Li 在世界模型语境中提到的“spatial intelligence”是什么意思?

Spatial intelligence” refers to an AI's ability to understand the world in three dimensions. It goes beyond recognizing objects in an image to comprehending their size, position, relationship to other objects, and how they behave within the physics of a given environment. Li believes this is a fundamental and necessary step for creating truly intelligent machines that can interact with the physical world.

 
 

免费开始

一款本地优先的AI助手,具备个人知识管理功能

为了获得更好的人工智能体验,

remio 目前仅支持Windows 10+ (x64)M-Chip Mac

在你的大脑里添加一个搜索栏

Ask remio

记住一切

​无需整理

bottom of page