Genie 3 能从文字或图片即时生成可玩的 3D 互动世界

玉兰 • 2025-08-07 03:40 • 杂文

Google 发布的 Genie 3 能从文字或图片即时生成可玩的 3D 互动世界，你（或 AI 智能体）可以用键盘在里面走动、互动，还能随时改变天气、加入角色等“世界事件”。相比前代，它在清晰度、时长、连贯性与可编辑性上都大幅提升，目前以受限研究预览形式开放。

<br />

(视频)

官方博客：O网页链接

什么是“世界模型”，为什么重要？

“世界模型”并不只是生成一段视频，而是内部模拟一个可交互的环境：当你在虚拟世界里“按下向前键”，模型会推演之后会发生什么——地面如何移动、角色如何避障、物体如何相互作用。这样的能力被许多研究者视为迈向更通用智能（AGI）的关键拼图，因为它让 AI 能在交互中学习、在模拟里尝试—失败—再尝试，而不是只看静态数据。

Genie 3 到底新在哪？

对比前代 Genie/Genie 2，Genie 3 的核心升级点可以用四点概括：
1. 实时性与时长：能以近实时的方式创建并游玩，交互时长从“几十秒”提升到“几分钟级”。
2. 画质与帧率：支持720p、24fps 的可玩画面（研究演示设置）。
3. 视觉记忆与一致性：比如你在墙上写了字、挂了画，回来仍在；世界细节具备更好的持久性。
4. “可以用提示词操作”的世界事件（Promptable World Events）：可用文本随时改变天气、加入角色或物件，边玩边改；世界是连续生成的，而不是预制关卡。

注：与此相对，Genie 2 在 2024/2025 年展示了从一张图生成可操控、可游玩环境的能力，但交互时长、清晰度与连贯性较受限制，是 Genie 3 的直接前身。

能做什么好玩/有用的事？

1. 机器人/自动驾驶的仿真训练：先在“虚拟仓库”或“雪场”里练，再把策略迁移到现实，降低成本与风险。
2. 通用智能体的经验学习：智能体在世界里尝试任务（找物、搬运、导航），学到可复用的“常识性物理”与策略。
3. 创作与游戏原型：用文字快速“搭一个可玩的场景”，用于游戏关卡、影视预演、教育互动内容的原型制作。

我现在能在哪里试 Genie 3 ？

DeepMind 表示 Genie 3 暂时以受限研究预览开放，优先面向部分研究者与创作者；尚未面向公众广泛提供在线体验。

有哪些限制与需要注意的？

1. 交互范围仍有限：当前演示多为键盘导航、基本互动，复杂任务与高自由度玩法仍在推进。
2. 物理与因果并非完美：尽管更连贯，但在极端场景下仍可能出现不符合直觉的“物理幻觉”。（一般属于这类模型的已知挑战。）
3. 安全与开放节奏：DeepMind 在更广泛开放前会继续做能力与安全评估，这与其“前沿模型安全框架”的路线一致。

媒体普遍将 Genie 3 视作迈向 AGI 的一个“踏脚石”：因为它把“会说/会看”进一步推进到“会在世界里行动与规划”。

版权声明：
作者：玉兰
链接：https://www.techfm.club/p/222639.html
来源：TechFM
文章版权归作者所有，未经允许请勿转载。

THE END

二维码

剽悍一只猫：谈谈“偏爱”

< <上一篇

稀缺性误导：越说“限量”，越要冷静

下一篇>>

搜索内容

Genie 3 能从文字或图片即时生成可玩的 3D 互动世界

取消回复

共有 0 条评论

Ads