Genie 3 能从文字或图片即时生成可玩的 3D 互动世界

Google 发布的 Genie 3 能从文字或图片即时生成可玩的 3D 互动世界,你(或 AI 智能体)可以用键盘在里面走动、互动,还能随时改变天气、加入角色等“世界事件”。相比前代,它在清晰度、时长、连贯性与可编辑性上都大幅提升,目前以受限研究预览形式开放。

(视频)

官方博客:O网页链接

什么是“世界模型”,为什么重要?

“世界模型”并不只是生成一段视频,而是内部模拟一个可交互的环境:当你在虚拟世界里“按下向前键”,模型会推演之后会发生什么——地面如何移动、角色如何避障、物体如何相互作用。这样的能力被许多研究者视为迈向更通用智能(AGI)的关键拼图,因为它让 AI 能在交互中学习、在模拟里尝试—失败—再尝试,而不是只看静态数据。

Genie 3 到底新在哪?

对比前代 Genie/Genie 2,Genie 3 的核心升级点可以用四点概括:
1. 实时性与时长:能以近实时的方式创建并游玩,交互时长从“几十秒”提升到“几分钟级”。
2. 画质与帧率:支持720p、24fps 的可玩画面(研究演示设置)。
3. 视觉记忆与一致性:比如你在墙上写了字、挂了画,回来仍在;世界细节具备更好的持久性。
4. “可以用提示词操作”的世界事件(Promptable World Events):可用文本随时改变天气、加入角色或物件,边玩边改;世界是连续生成的,而不是预制关卡。

注:与此相对,Genie 2 在 2024/2025 年展示了从一张图生成可操控、可游玩环境的能力,但交互时长、清晰度与连贯性较受限制,是 Genie 3 的直接前身。

能做什么好玩/有用的事?

1. 机器人/自动驾驶的仿真训练:先在“虚拟仓库”或“雪场”里练,再把策略迁移到现实,降低成本与风险。
2. 通用智能体的经验学习:智能体在世界里尝试任务(找物、搬运、导航),学到可复用的“常识性物理”与策略。
3. 创作与游戏原型:用文字快速“搭一个可玩的场景”,用于游戏关卡、影视预演、教育互动内容的原型制作。

我现在能在哪里试 Genie 3 ?

DeepMind 表示 Genie 3 暂时以受限研究预览开放,优先面向部分研究者与创作者;尚未面向公众广泛提供在线体验。

有哪些限制与需要注意的?

1. 交互范围仍有限:当前演示多为键盘导航、基本互动,复杂任务与高自由度玩法仍在推进。
2. 物理与因果并非完美:尽管更连贯,但在极端场景下仍可能出现不符合直觉的“物理幻觉”。(一般属于这类模型的已知挑战。)
3. 安全与开放节奏:DeepMind 在更广泛开放前会继续做能力与安全评估,这与其“前沿模型安全框架”的路线一致。

媒体普遍将 Genie 3 视作迈向 AGI 的一个“踏脚石”:因为它把“会说/会看”进一步推进到“会在世界里行动与规划”。

 

版权声明:
作者:玉兰
链接:https://www.techfm.club/p/222639.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>