AI导读:

谷歌DeepMind向外部开放了Project Genie——一个先进的世界模型,允许用户通过文字描述创建并探索可交互的3D虚拟世界。该技术为AI智能体和未来机器人提供了无限、安全且成本可控的“模拟训练场”。

  如果人工智能领域的进步可以看作一部交响乐,那么过去几年,乐章的主题无疑是“生成”——生成文字、图像、声音乃至视频。然而,在2026年初,一段崭新的旋律被奏响:它不仅生成,更能构建。

  北京时间1月30日凌晨,谷歌DeepMind向外部开放了Project Genie,它被认为是目前最先进的世界模型之一,可以算是世界模型Genie3的实验性研究原型,也是这套世界模型第一次以可交互形态对公众开放

  “Genie”这个单词源于阿拉伯语 jinni(精灵),后经法语变形成 génie后成为一个英语词汇,最常见的含义是指阿拉伯和伊斯兰神话传说中,一个能实现召唤者愿望的“精灵”或“神怪”。谷歌DeepMind将其世界模型项目命名为“Project Genie”(精灵计划),正是在阐释该神话的内涵:这个AI模型能将你用文字描述的任何场景(召唤者的愿望),瞬间生成一个可以进入并交互的虚拟世界。

  当AI不仅能够描绘梦境,更能让人走进梦境并与之互动时,我们所讨论的“虚拟”与“现实”的边界,或许已到了需要被重新思考的时刻。

  目前,该原型率先向年满18岁的美国Google AI Ultra(3个月125美元)订阅用户开放。

  Project Genie有何不同?

  Project Genie的底层是世界模型Genie 3。与OpenAI的Sora等内容生成大模型不同,它的功能不局限于多模态内容生成(比如AI视频生成工具可为用户创作一段影片,模型可依据、参考的一切数据来自人类储存好的文字库、图像库及视频库),而是可以生成一个完整的空间,实现“凭空造世”:

  只需用文字描述一个场景或上传一张图片,例如“一座被巧克力河环绕的棉花糖城堡”,一个实时的、可交互的3D虚拟世界便会在几秒钟内生成。

  用户能够像玩电子游戏一样,指挥角色在其中自由行走、飞行或驾驶,探索这个想象出来的世界。

  周围的环境则根据视角和行为动态、连续地生成。这并非依赖传统的游戏引擎解码固定数据,而是对潜在物理规律与空间逻辑的一次即时推演与具现,能在用户移动时,实时生成前方的路径和环境。

  从技术本质上看,世界模型的核心是模拟环境的动态变化,预测环境的演化和行为对环境的影响。

  谷歌DeepMind在诸如国际象棋、围棋等特定环境的AI智能体研发上已有深厚积累,但要实现通用人工智能(AGI),系统必须能够理解和应对现实世界近乎无限的复杂性与多样性。

  Genie 3正是在这一方向上迈出的关键一步。它提供了一种前所未有的模拟能力,能够生成任何现实或虚构场景的交互式环境。这为机器人技术、动画制作乃至历史场景的虚拟探索等领域提供了强大的工具。

  对于AI的发展而言,Project Genie的深意远不止于炫酷的体验。它最核心的价值,在于为AI智能体(及未来的机器人)提供了一个无限、安全且成本可控的“模拟训练场”、“试错沙盒”。智能体可以在Genie创造的海量、多样化的模拟环境中进行学习和训练,理解现实世界的物理规则和因果逻辑,这正是迈向通用人工智能不可或缺的基石。

  从这个角度看,世界模型并非一个内容端的创作工具,而是一座连接当前AI与未来“具身智能”的桥梁,是让AI学会“常识”与“因果”的关键基础设施。

  AI学术大佬、科技巨头争相布局