5、多样化环境
Genie 2可创建不同的视角,例如第一视角、等距视图或第三视角驾驶视频。
6、3D结构
Genie 2会创建复杂的3D视觉场景。
7、模拟对象相互作用
Genie 2能模拟各种物体的相互作用,例如爆破气球、打开门和射击炸药桶。
8、角色动画
Genie 2学习了如何为不同类型的角色制作动画来执行不同的活动。
9、NPC
Genie 2能够模拟其他agent,甚至与它们进行复杂的交互。
10、物理
Genie 2模拟水效果。
11、烟雾
Genie 2模拟烟雾效果。
12、重力
Genie 2模拟重力。
13、灯光
Genie 2模拟光点和定向照明。
14、反射
Genie 2模拟反射、喷雾减光和彩色灯光。
二、理解物理世界差异,可将概念图转化成交互式环境
Genie 2模型可快速创建各种交互体验的原型。例如用Imagen 3生成不同图像,让Genie 2生成模拟纸飞机、龙、鹰、降落伞飞行的视频。可以看到Genie 2生成的视频能够理解并模拟出它们飞行的差异。
概念艺术和绘图也可以被Genie 2转化成完全交互式环境,以便艺术家、设计师能快速制作研究环境概念的原型。
三、AI agent也能玩,为具身智能提供绝佳训练场
Genie 2可快速为AI agent创建丰富多样的环境,从而生成agent在训练期间未见过的评估任务。
例如,Google DeepMind与游戏开发商合作开发了SIMA agent。SIMA agent被设计成通过遵循自然语言指令来完成一系列3D游戏世界中的任务,因此可以在Genie 2合成的、未见过的环境执行指令。
输入下面Imagen 3生成的第三开放世界探索游戏图,Genie 2可生成一个带有两扇门(一扇是红门,一扇是蓝门)的3D环境。
然后向SIMA agent提出打开某扇门的指令,Genie 2则能生成符合要求的画面。
在这个示例中,SIMA通过键盘和鼠标输入控制角色,而Genie 2生成游戏帧。
也可以使用SIMA来帮助评估Genie 2的功能。通过指示SIMA环顾四周、探索房屋后面等,测试Genie 2生成一致环境的能力。
再比如根据下面这张图来生成视频。
输入不同提示词“上楼”、“去有植物的地方”、“走中间门”,Genie 2会生成对应的不同视频画面。
虽然这项研究仍处于早期阶段,agent和环境生成能力都还有很大的改进空间,但Google DeepMind相信Genie 2是解决安全训练具体agent的结构性问题的途径,同时实现迈向AGI所需的广度和通用性。
结语:世界模型,AI领域的下一件大事
游戏是安全测试和推进AI能力的理想环境。训练更通用具身agent的传统瓶颈在于缺乏足够丰富和多样化的训练环境。
Google DeepMind正将越来越多资源投入于世界模型研究。Genie 2展示了基础世界模型在创建多样化3D环境、定制交互式游戏场景、加速agent研究等方面的潜力,可让未来的Agent在无限的新世界中接受训练和评估。
该研究方向尚处于早期阶段,Google DeepMind计划在通用性和一致性方面继续改进Genie的世界生成能力。
与SIMA一样,其研究致力于构建更通用的AI系统和agent,使其能够理解和安全地执行各种任务,从而帮助在线和现实世界中的人们。
Google DeepMind还放了一些有趣的“彩蛋”:Genie 2生成出一些奇怪视频,比如没有采取行动的情况下一个鬼魂出现在花园,在雪场的人物角色相比滑雪更爱跑酷、一个魔法球把周遭炸成灰。
来源:Google DeepMind
https://zhidx.com/p/458077.html