谷歌DeepMind开放Project Genie：可交互世界模型首次对公众开放

股市热点 2026-01-31 07:58:02 来源：科创板日报作者：网络

AI导读：

谷歌DeepMind向外部开放了Project Genie——一个先进的世界模型，允许用户通过文字描述创建并探索可交互的3D虚拟世界。该技术为AI智能体和未来机器人提供了无限、安全且成本可控的“模拟训练场”。

　　如果人工智能领域的进步可以看作一部交响乐，那么过去几年，乐章的主题无疑是“生成”——生成文字、图像、声音乃至视频。然而，在2026年初，一段崭新的旋律被奏响：它不仅生成，更能构建。

　　北京时间1月30日凌晨，谷歌DeepMind向外部开放了Project Genie，它被认为是目前最先进的世界模型之一，可以算是世界模型Genie3的实验性研究原型，也是这套世界模型第一次以可交互形态对公众开放。

　　“Genie”这个单词源于阿拉伯语 jinni（精灵），后经法语变形成 génie后成为一个英语词汇，最常见的含义是指阿拉伯和伊斯兰神话传说中，一个能实现召唤者愿望的“精灵”或“神怪”。谷歌DeepMind将其世界模型项目命名为“Project Genie”（精灵计划），正是在阐释该神话的内涵：这个AI模型能将你用文字描述的任何场景（召唤者的愿望），瞬间生成一个可以进入并交互的虚拟世界。

　　当AI不仅能够描绘梦境，更能让人走进梦境并与之互动时，我们所讨论的“虚拟”与“现实”的边界，或许已到了需要被重新思考的时刻。

　　目前，该原型率先向年满18岁的美国Google AI Ultra（3个月125美元）订阅用户开放。

　　Project Genie有何不同？

　　Project Genie的底层是世界模型Genie 3。与OpenAI的Sora等内容生成大模型不同，它的功能不局限于多模态内容生成（比如AI视频生成工具可为用户创作一段影片，模型可依据、参考的一切数据来自人类储存好的文字库、图像库及视频库），而是可以生成一个完整的空间，实现“凭空造世”:

　　只需用文字描述一个场景或上传一张图片，例如“一座被巧克力河环绕的棉花糖城堡”，一个实时的、可交互的3D虚拟世界便会在几秒钟内生成。

　　用户能够像玩电子游戏一样，指挥角色在其中自由行走、飞行或驾驶，探索这个想象出来的世界。

　　周围的环境则根据视角和行为动态、连续地生成。这并非依赖传统的游戏引擎解码固定数据，而是对潜在物理规律与空间逻辑的一次即时推演与具现，能在用户移动时，实时生成前方的路径和环境。

　　从技术本质上看，世界模型的核心是模拟环境的动态变化，预测环境的演化和行为对环境的影响。

　　谷歌DeepMind在诸如国际象棋、围棋等特定环境的AI智能体研发上已有深厚积累，但要实现通用人工智能（AGI），系统必须能够理解和应对现实世界近乎无限的复杂性与多样性。

　　Genie 3正是在这一方向上迈出的关键一步。它提供了一种前所未有的模拟能力，能够生成任何现实或虚构场景的交互式环境。这为机器人技术、动画制作乃至历史场景的虚拟探索等领域提供了强大的工具。

　　对于AI的发展而言，Project Genie的深意远不止于炫酷的体验。它最核心的价值，在于为AI智能体（及未来的机器人）提供了一个无限、安全且成本可控的“模拟训练场”、“试错沙盒”。智能体可以在Genie创造的海量、多样化的模拟环境中进行学习和训练，理解现实世界的物理规则和因果逻辑，这正是迈向通用人工智能不可或缺的基石。

　　从这个角度看，世界模型并非一个内容端的创作工具，而是一座连接当前AI与未来“具身智能”的桥梁，是让AI学会“常识”与“因果”的关键基础设施。

　　AI学术大佬、科技巨头争相布局

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。