Future Tech

[转贴] AI玩赛车游戏登上Nature封面!击败人类冠军

Tan KW
Publish date: Thu, 10 Feb 2022, 06:01 PM
Tan KW
0 464,583
Future Tech
AI玩赛车游戏登上Nature封面!击败人类冠军

智东西(公众号:zhidxcom)
编译 | ZeR0
编辑 | 漠影

新的索尼大法来了!

智东西2月10日报道,今日,索尼AI部门Sony AI重磅宣布,其AI程序击败了世界上最顶级的赛车游戏选手,并登上国际学术顶刊Nature的封面。

AI玩赛车游戏登上Nature封面!击败人类冠军

论文链接:

https://www.nature.com/articles/s41586-021-04357-7

这是继AI在扑克、象棋、围棋、星际争霸、DOTA等游戏击败人类冠军选手后,游戏AI实现的又一里程碑。

作为全球首个能够在高度拟真赛车模拟游戏中战胜最强人类选手的赛车AI智能体,索尼的赛车游戏AI GT Sophy仅用一两天磨练战术和技巧,就做到了超过赛车模拟游戏《GT赛车》中可以击败95%的人类玩家。在训练总计45000小时后,这个AI程序已经能与顶级GT赛车玩家一较高下。

AI玩赛车游戏登上Nature封面!击败人类冠军

相比此前AI已经掌握的棋牌类游戏及部分多人策略游戏,《GT赛车》更加复杂,因为它高度模拟现实世界,每辆车、每条轨道都经过建模,视觉、音频以及动态方面全部尽可能地还原现实世界的驾驶体验。

这使得AI必须具备极强的持续判断和快速反应能力,在高速变动的条件下,综合考量摩擦、空气动力学、驾驶路线、速度、方向等各种因素,在距离对手几英寸的范围内,对具有复杂非线性动力学的车辆进行实时控制,并知道如何在不违规的前提下超越对手。

“在一场正面竞赛中如此超越杰出的人类车手,是AI领域的一项里程碑式成就。”共同撰文的斯坦福大学汽车研究中心联席主任克里斯·格迪斯(Chris Gerdes)教授相信,用于开发该AI的技术有望在自动驾驶汽车软件中发挥作用。

GitHub链接:

https://sonyai.github.io/gt_sophy_public/

一、比玩星际争霸更强的智能体,精通控制、战术和礼仪

GT Sophy研究项目启动于2020年4月,是一个使用新型深度强化学习平台进行训练的自主AI智能体,也是Sony AI自2019年11月成立以来一直致力于应对的关键挑战之一。

Sony AI以日本、美国和欧洲三地为据点,重点推进游戏、成像、传感三个AI旗舰项目。Sony AI全球负责人北野弘明还曾放言:“到2050年,要让 AI 凭自己的科研成果拿下诺贝尔奖!”

而今日登上Nature封面的赛车游戏AI,正是Sony AI韬光养晦、筹谋已久的大招!

过去两年间,Sony AI团队、《GT赛车》系列背后的游戏开发工作室Polyphony Digital(PDI)以及索尼互动娱乐(SIE)的云游戏团队密切合作,使用SIE管理的云游戏基础设施训练这个AI。

AI玩赛车游戏登上Nature封面!击败人类冠军

为了尽可能重现现实世界的赛车环境,PDI为PlayStation 4创建了超现实主义驱动模拟器GT Sport,并提供API访问。

GT Sport配备了一些最新的汽车动力学模拟,逼真地还原了赛车、赛道乃至空气阻力、轮胎摩擦等物理现象,并在汽车制造商的指导下严扣从车身曲线、车身面板间隙到大灯形状等每个细节。

该模拟器是与国际汽联合作设计的,在全球拥有超过40万人的电子竞技社区,它带来了一个具有明确规则和判断标准的公平赛车环境。

AI玩赛车游戏登上Nature封面!击败人类冠军

GT Sophy即是在这个终极模拟环境中训练而出,同样,分布式训练平台DART也对于该AI新成果功不可没。

基于这个定制平台,Sony AI研究人员能在SIE云游戏平台的PlayStation 4控制台上训练GT Sophy。

DART允许研究人员轻松指定实验,在云资源可用时自动运行,并收集可以在浏览器中查看的数据。此外,该平台还管理PlayStation 4控制台、代理计算资源和GPU,用于跨数据中心的训练。

它能访问1000多个PlayStation 4控制台,每个都用于收集训练GT Sophy的数据或评估训练有素的版本。该平台由必要的计算组件(GPU、CPU)组成,用于与大量PlayStation 4进行交互,并支持长时间的大规模训练。

AI玩赛车游戏登上Nature封面!击败人类冠军

DART使得Sony AI的研究团队能够同时无缝运行数百个实验,并探索将GT Sophy提升到更高水平的技术。

在这些基础设施的支持下,仅在一两天内,GT Sophy就做到超过GT Sport中约95%的选手。经过10天、总计45000小时的驾驶学习,GT Sophy在所有三条赛道上取得了超人般的计时赛表现。

为了验证这个赛车游戏AI的实力,研究人员让GT Sophy在2021年7月2日和10月21日举行的“2021赛车挑战赛”中,与世界上最优秀的四名GT赛车手同台竞技,并成功超过这些顶级人类选手。

AI玩赛车游戏登上Nature封面!击败人类冠军

二、顶级赛车游戏AI是怎样炼成的?

为了打造出超强赛车游戏AI,Sony AI研究人员和工程师开发了创新的强化学习技术,包括一种名为Quantitile-Regression Soft Actor-Critic(QR-SAC)的新训练算法、一种可以理解的赛车规则编码,以及一种促进获得细微的赛车技能的训练方案。

深度强化学习是街机游戏、国际象棋、围棋等复杂策略游戏及其他实时多人策略游戏中大多数AI里程碑的关键组成部分,特别适合开发游戏AI智能体,因为强化学习智能体会考虑其行为的长期影响,并能在学习期间独立收集自己的数据,从而避免了对复杂、手工编码的行为规则的需求。

而处理《GT赛车》等复杂领域,需要同样复杂和微妙的算法、奖励和训练场景。

AI玩赛车游戏登上Nature封面!击败人类冠军

AI从多个《GT赛车》游戏中获取信息,通过最大化快速跑圈的奖励和最小化碰撞的惩罚等方式来学会如何取胜。比如,如果它超过另一辆车就会获得一定权重的奖励,但出现抄近路、碰撞、打滑等事故则受到惩罚。

GT Sophy在《GT赛车》的三种汽车和赛道组合上接受了多种场景的训练。其中一些只有AI智能体在赛道上,而另一些则增加了7个正常游戏的NPC对手。每次赛道位置、起始速度、汽车之间的间距以及对手的技能水平都是随机的。

AI玩赛车游戏登上Nature封面!击败人类冠军

通过持续学习和积累经验,GT Sophy掌握了赛车控制、赛车战术和赛车礼仪的技能。

1)赛车控制:赛车本质上是试图驾驶处于控制边缘或行驶更远地方的汽车。估计制动点、找到最佳路线、寻找抓地力以最大限度地提高速度和控制力等,本身就是非常有趣的机器学习问题。

一种新的算法QR-SAC明确推理了GT Sophy高速行动的各种可能结果。解释驾驶动作的后果和其中的不确定性,有助于GT Sophy在车体极限上通过弯道,并在与不同类型的对手比赛时考虑复杂的可能性。

我们来看一个展示GT Sophy极限驾驶技能的例子,在没有接触的情况下,智能体可驾驶通过一系列紧贴墙壁的弯道行驶。

 

 

https://zhidx.com/p/316169.html

Discussions
Be the first to like this. Showing 0 of 0 comments

Post a Comment