登上《自然》封面的索尼赛车AI，是如何击败人类顶级车手的？

2022-02-12 18:07:15 来源：腾讯网

小大

军事APP 头条APP

“我们追求人工智能，是为了最终更好地了解人类。”

作为这个世代中为数不多的拟真赛车游戏，《GT赛车Sport》的玩家们可能从来没有想过，自己玩的游戏，有天会登上世界顶级科学期刊《自然》（Nature）的封面。

在昨天，索尼公布了一款由其旗下AI部门开发的人工智能技术，同时它也相应地成为了本周《自然》的“封面人物”，而这个人工智能的成就，是在《GT赛车Sport》中击败了全球一流赛车游戏选手们。

Nautre第7896期封面

或者，用“征服”这个词来形容更为合适。在索尼演示的四位AI车手与四名职业赛车玩家的对决中，冠军AI的最高圈速比人类中的最优者快了两秒有余。对一条3.5英里长度的赛道而言，这个优势一如AlphaGo征服围棋。

在近五年的研发时间里，这个由索尼AI部门、SIE还有PDI工作室（也就是《GT赛车》开发商）共同研发的AI完成了这个目标。

索尼为这个AI起名为GT Sophy。“索菲”是个常见的人名，源自希腊语σοφ α，意为“知识与智慧”。

Sophy和一般的游戏AI有什么区别？

AI在游戏中打败人类，并不是一件稀奇事。OpenAI在“冥想训练”了成千上万场DOTA2后击败过当时的Ti8冠军OG，谷歌的AlphaStar也曾面对《星际争霸2》的顶级职业选手时表现过碾压态势，而我们每个普通玩家，也都尝过“电脑[疯狂的]”的苦头。

2019年，OpenAI曾经在仅开放部分英雄选用的限制条件下击败过OG

但这些“打败”并非一回事。要明白GTS中的AI车手Sophy意味着什么，首先要明确Sophy和其一个单纯“你跑不过的AI”有什么区别。

对过往赛车游戏里的AI而言，尽管呈现形式都是游戏中非玩家控制的“智能体”，但传统意义上的AI车手通常只是一套预设的行为脚本，并不具备真正意义上的智能。

传统AI的难度设计一般也是依赖“非公平”的方式达成的，比如在赛车游戏中，系统会尽可能削弱甚至消除AI车的物理模拟，让AI车需要处理的环境参数远比玩家简单。

而要塑造更难以击败的AI敌人，也不过是像RTS游戏中的AI通过暗中作弊的方式偷经济暴兵一样，让AI车在不被注意的时刻悄悄加速。

所以对于具备一定水平的玩家而言，赛车游戏里的传统AI在行为逻辑和策略选择上几乎没有值得参考的点，遑论职业赛车游戏选手。

而Sophy则是和AlphaGo一样，通过深度学习算法，逐渐在模拟人类的行为过程中达到变强：学会开车，适应规则，战胜对手。

这种AI带给玩家的，完全是“在公平竞争中被击败”的体验。在被Sophy击败后，一位人类车手给出了这样的评价：“（Sophy）当然很快，但我更觉得这个AI有点超乎了机器的范畴……它像是具备人性，还做出了一些人类玩家从未见过的行为。”

这难免再次让人联想到重新改写了人类对围棋理解的AlphaGo。

相对于围棋这种信息透明的高度抽象游戏，玩法维度更多、计算复杂度更高的电子游戏，在加入深度学习AI之后，其实一直很难确保“公平竞技”的概念。

例如在2019年征战《星际争霸2》的AlphaStar，基本没有生产出新的战术创意，只是通过无限学习人类选手的战术，再通过精密的多线操作达成胜利——即便人为限制了AlphaStar的APM，AI完全没有无效操作的高效率也并非人类可比。

这也是为什么在AlphaStar与人类职业选手的对抗记录里，当AI用“三线闪追猎”这样的神仙表演击败波兰星灵选手MaNa后，并不服气的MaNa在赛后采访中说出了“这种情况在同水平的人类对局中不可能出现”这样的话。

AlphaStar用追猎者“逆克制关系”对抗MaNa的不朽者部队

同样，《GT赛车》也是一款与《星际争霸2》具备同样复杂度的拟真赛车游戏。

在专业赛车玩家的眼中，路线、速度、方向，这些最基本的赛车运动要素都可以拆解为无数细小的反应和感受，车辆的重量、轮胎的滑移、路感的反馈……每条弯道的每次过弯，都可能存在一个绝佳的油门开度，只有最顶级的车手可以触摸到那一缕“掌控”的感觉。

在某种意义上来讲，这些“操纵的极限”当然能够被物理学解释，AI能掌握的范围显然要大于人类。所以，Sophy的反应速度被限制在人类的同一水平，索尼为它分别设置了100毫秒、200毫秒和250毫秒的反应时间——而人类运动员在经过练习后对特定刺激的反应速度可以做到150毫秒左右。

无疑，这是一场比AlphaStar更公平的战斗。

Sophy学会了什么

和Sophy为数众多的AI前辈一样，它也是利用神经网络等深度学习算法来进行驾驶技巧的训练。

Sophy在训练环境中会因为不同的行为遭受相应奖励或者惩罚——高速前进是好的，超越前车则更好；相应地，出界或者过弯时候撞墙就是“坏行为”，AI会收获负反馈。

在上千台串联起的PS4组成的矩阵中，Sophy经受了无数次模拟驾驶训练，在上述学习里更新自己对《GT赛车Sport》的认知。从一个不会驾驶的“婴儿”到开上赛道，Sophy花费了数个小时的时间；一两天后，从基础的“外内外”行车线开始，Sophy已经几乎学会了所有常见的赛车运动技巧，超越了95%的人类玩家。

索尼AI部门为Sophy搭建的“训练场”

然而，赛车并不是一个人的游戏。即便Sophy在去年7月份的比赛中，已经可以没有其他赛车的情况下拥有超出顶级人类选手的计时赛成绩，但在真实的多人游戏中，Sophy还需要学会与对手进行对抗上的博弈，理解其他车手的行为逻辑。

因此，索尼AI部门的科研人员对Sophy进行了更多的“加练”，比如面对其他车时如何插线超车、阻挡卡位。到最后，Sophy甚至还被“教育”到能够理解和遵守赛车运动中的比赛礼仪——比如作为慢车时进行让车，同时避免不礼貌的恶意碰撞。

赛车游戏中的AI车，一般即便会尝试躲避与玩家擦碰，其实现方式也只是不自然地闪躲。而Sophy呈现出的“比赛理解”，都是依靠脚本运行的传统赛车AI无法做到的。

到了10月，Sophy已经可以在正式的同场比赛中击败最顶级的人类选手。

索尼邀请的四位人类车手，其中包括GT锦标赛三冠王宫园拓真

比如第一场在Dragon Trail（龙之径）上进行的比赛。作为《GT赛车Sport》的驾驶学校尾关，每个GTS玩家应该都相当熟悉这条赛道（以及DLC中的“汉密尔顿挑战”）。在数万个小时的训练过后，排名第一的Sophy车手已经可以踩着绝对的最优路线保持全程第一。

而在四个Sophy与四位人类车手角逐的第二个比赛日中，AI们的优势进一步扩大了——几乎达成了对顶级人类玩家的碾压。

如果只是在路线的选择和判断上强过人类，用更稳定的过弯来积累圈速优势，这可能还没什么大不了的。

但研究者们认为，Sophy几乎没有利用在用圈速上的绝对优势来甩开对手（也就是AI身为非人类在“硬实力”上更强的部分），反而在对比赛的理解上也超过了人类玩家，比如预判对手路线的情况下进行相应的对抗。

在《自然》论文所举的案例中，两名人类车手试图通过合法阻挡来干扰两个Sophy的首选路线，然而Sophy成功找到了两条不同的轨迹实现了超越，使得人类的阻挡策略无疾而终，Sophy甚至还能想出有效的方式来扰乱后方车辆的超车意图。

Sophy还被证明能够在模拟的萨尔特赛道（也就是著名的“勒芒赛道”）上执行一个经典的高水平动作：快速驶出前车的尾部，增加对前车的阻力，进而超越对手。

更令研究者称奇的是，Sophy还捣鼓出了一些非常规的行为逻辑，听上去就像AlphaGo用出新的定势一样。通常，赛车手接受的教育都是在过弯时“慢进快出”，负载只在两个前轮上。但Sophy并不一定会这么做，它会在转弯时选择性制动，让其中一个后轮也承受负载。

而在现实中，只有最顶级的F1车手，比如汉密尔顿和维斯塔潘，正在尝试使用这种三个轮胎快速进出的技术——但Sophy则完全是在游戏世界中自主学会的。

曾经取得三次GT锦标赛世界冠军的车手宫园拓真在与AI的对抗中落败后说，“Sophy采取了一些人类驾驶员永远不会想到的赛车路线……我认为很多关于驾驶技巧的教科书都会被改写。”

“为了更好地了解人类”

区别于以往出现在电子游戏中的先进AI们（比如AlphaStar），Sophy的研究显然具备更广义、更直接的现实意义。

参与《自然》上这篇论文撰写的斯坦福大学教授J.Christian Gerdes就指出，Sophy的成功说明神经网络在自动驾驶软件中的作用可能比现在更大，在未来，这个基于《GT赛车》而生的AI想染会在自动驾驶领域提供更多的帮助。

索尼AI部门的CEO北野宏明也在声明中表示，这项AI研究会给高速运作机器人的研发以及自律型驾驶技术带来更多的新机会。

Sophy项目官网的介绍

但如果我们将目光挪回作为拟真赛车游戏的《GT赛车》本身，Sophy的出现，对大众玩家和职业车手而言同样具备不菲的意义。

正如文章前面所说，在目前市面上大多数拟真赛车游戏中，“传统AI”已经是一个完全不能带给玩家任何乐趣的事物。这种依赖不公平条件达成的人机对抗，与赛车游戏开发者希望带给玩家的驾驶体验是相悖的，人类玩家也无法从中获得任何教益。

在索尼AI部门发布的纪录片中，“GT赛车之父”山内一典就表示，开发无与伦比的AI可能是一项了不起的技术成就，但这对普通玩家来说可能不是什么直白的乐趣。

因此，山内承诺在未来的某个时候，索尼会将Sophy带入到三月份即将发售的《GT赛车7》中。当Sophy能够更加了解赛场上的环境和条件，判断其他车手的水平，一个这样智能又具备风度的AI，就能够在与人类比赛时，为玩家提供更多真实的快乐。

在拟真赛车游戏逐渐“小圈子化”，众多厂商都做不好面对纯新玩家的入门体验的今天，或许一个AI老师的存在，有机会能给虚拟世界中的拟真驾驶带来更多的乐趣，就像《GT赛车4》的宣传片片头所说，“体验汽车生活”。

这可能才是一个基于游戏而生的AI能为玩家带来的最重要的东西——如同山内一典对Sophy项目的评论， “我们不是为了打败人类而制造人工智能——我们追求人工智能，是为了最终更好地了解人类。”