刚刚,我们见证了 AI 与人类 PK 的又一次重大进展! 北京时间 1 月 25 日凌晨 2:00 起公布了其录制的 AI 在《星际争霸 2》中与2位职业选手的比赛过程: 5:0 战胜职业选手TLO ,5:0战胜 2018 年 WSC 奥斯汀站亚军 MaNa 。与两位人类对手的比赛相隔约两周,AI 自学成才,经历了从与 TLO 对战时的菜鸟级别,进化到完美操作的过程,尤其是与 MaNa 的对战,已经初步显示了可以超越人类极限的能力。
这次的演示也是 的星际争霸 2 AI 的首次公开亮相。除了此前比赛录像的展示外, 还和 MaNa 现场来了一局,不过,这局 输给了人类选手 MaNa 。
图 | MaNa 正在聚精会神比赛(图源:)
在演示中介绍,双方的比赛固定在 LE 地图,采用 4.6.2 游戏版本,而且只能进行神族内战,双方将进行 5 场比赛。首先接受邀请的是 战队的虫族选手 TLO,目前世界排名 68。
图 | TLO(图源:)
第一场比赛,TLO 出现在 10 点钟方向, 出现在 4 点钟对角方向。TLO 的开场非常传统,采用了双兵营封路的开局,但 并没有封路,这一问题被 TLO 的农民侦查到,他果断拍出使徒,采用了常见的杀农民骚扰策略。
虽然 没有封路,直接放进了 TLO 的使徒,但 的双兵营也造出了使徒防守,导致 TLO 的第一次骚扰只杀掉了两个农民,剩下的使徒也无功而返。
随后双方都开始补出追猎,TLO 开始用先知骚扰。双方进行了多个小规模交战,几波互换几乎平手, 损失的农民较多,TLO 损失了多个使徒。在交战中,我们看到了 进行了类似人类的微操,一边撤退,一边反打 TLO 的追猎,同时利用棱镜传输兵力。
图 | 的视野,它可以看到全地图战争迷雾之外发生了什么,然后做出决策,实现全局资源调度(图源:)
不过 TLO 此时的二矿刚刚建好, 只有单矿,将更多的经济转化成了兵力,因此 爆出了更多的追猎,直接选择进攻二矿,TLO 的追猎寡不敌众,在主力兵力被歼灭后打出 GG。
第一局以 的胜出为结果,我们看到了 的一些不同寻常做法,比如不选择互相骚扰农民,而是直接用兵力防守,然后发现 TLO 拍下二矿之后,在正面战场用一定数量的追猎持续压制。
由于时间限制,演示中并没有播放所有比赛,而是在展示了另外一局比赛录像后,给出了 TLO 五局全败的战绩。不过所有的录像都将在 官网上放出,供人下载。
TLO 在演示中表示,他觉得自己还是可以赢的,如果能够有更多的训练时间,对 有更多的了解,是一定可以找到 弱点,然后获胜的。
随后登场的是 战队 MaNa,作为排名 19 的神族选手,他比 TLO 更加强大。如果 可以战胜他,那将说明 真的具备了人类顶尖选手的实力。
图 | 和人类选手的 APM 并没有太大区别(图源:)
与 MaNa 的第一局星际争霸2地图,双方都是“常规”开局,MaNa 封路, 没有封路。不过 采取了变种战略,选择在 MaNa 基地附近放下水晶,拍下两个兵营,准备利用兵营距离的优势进攻。MaNa 此时还在按照人类的思路,利用使徒骚扰农民。
在 兵营快完成的时候,被 MaNa 发现,他果断采取了防守措施,在高坡建造了两个充电站,准备利用封路和高坡的优势防守即将到来的追猎大军。按照 MaNa 的想法,“正常的人类选手是不会走上那个高坡的”。
但是 并不是人类,它犹豫两次之后选择直接攻上高地,由于追猎数量碾压 MaNa,野兵营还在源源不断地输出追猎,因此充电站几乎没有效果,几轮点射之后,MaNa 的追猎所剩无几,最终拉出所有农民也没能挽回败局,宣告失败。
在随后的两局录像复盘中,我们看到了 的强大微操和战术思路,它会学习和尝试人类的封路战术,生产额外的农民缓解骚扰带来的影响。在一局比赛中,我们看到了 使用了纯追猎战术,仅靠强大的微操对抗 MaNa 的追猎、不朽和叉子组合的混合军队。
图 | 实时战局(图源:)
将 30 多个追猎分成 2-3 组,从 3 个方向包夹 MaNa 的进攻部队,然后靠闪烁躲避 9 个不朽的攻击,这种非人类的操作彻底摧毁了 MaNa 的操作空间——无论他建造多少个不朽,都没有办法抵抗追猎大军。“这种情况在同水平人类对局中完全不会出现,”MaNa 在演讲中无奈地说道。
最终 MaNa 也以 0-5 的成绩败北,人类与 的 10 局比赛结果全是失败。
不过在演示直播中, 似乎有些膨胀,选择与 MaNa 进行了一场即时表演赛,后者也表示,自己要为 战队正名,捍卫战队和人类的荣誉。
双方常规开局,在前期并没有进行大规模交战。但 MaNa 显然是有备而来,没有使用使徒和先知骚扰,而是专注于侦查和攀升科技。在发现 依旧生产了茫茫多追猎后,MaNa 采用了棱镜运输不朽的骚扰战术,同时补出不朽、叉子和执政官等混合部队。这可谓是整场比赛的神来之笔。
图 | 三个先知围着棱镜看热闹(图源:)
在空投不朽骚扰农民时, 并没有选择补出凤凰打击棱镜,而是用不能攻击空中单位的先知跟踪棱镜,辅以数十个追猎来回往返前线和家中。看起来,它认为追猎可以对空攻击,因此不需要补出凤凰,而且似乎所有追猎都在一个分组内,没有分批分别执行进攻和防守任务。
于是我们看到了人类玩家对抗 AI 的典型方法:逼迫后者陷入循环执行某种任务的怪圈,使其浪费巨额时间和资源,无法形成有效的局势判断。
就这样,MaNa 消耗到了自己的兵力成型,然后一波压制直接瓦解了 的纯追猎部队。后者还尝试利用包夹的战术阻挡 MaNa,但这一次 MaNa 的兵力充足,不朽对追猎的克制十分明显,没有留给 一丝操作的机会,全歼对手,获得了宝贵的胜利。
图 | MaNa 获得表演赛胜利,露出了迷之微笑(图源:)
虽然 TLO 和 MaNa 的录像以全败告终,宣告了 的实力已经不可同日而语,但这场表演赛充分暴露了 目前的不足。
我们不难看出,尽管其神经网络已经趋于长期优化,但似乎仍然会在一定程度上陷入局部最优,被人类发现固定模式,落入圈套,而且从 5 个小叮当抱团,到纯追猎部队,都显示出它对游戏兵种的理解尚不到位,如果最后一局它可以像人类一样直接派出凤凰防守棱镜,或许它将继续凭借超强的微操一波推平 MaNa。
比赛回放过程中,主持人问到 科学家,平时如何训练 , 科学家 Oriol 、David 表示,首先是模仿学习,团队从许多选手那里获得了很多比赛回放资料,并试图让 AI 通过观察一个人所处的环境,尽可能地模仿某个特定的动作,从而理解星际争霸的基本知识。这其中所使用到的训练资料不但包括专业选手,也包括业余选手。这是 成型的第一步。
图 | 科学家 Oriol (图源:)
图 | 科学家 David (图源:)
之后,团队会使用一个称为“Alpha ”的方法。在这个方法中,Alpha 的第一个竞争对手就是从人类数据中训练出来的神经网络,然后进行一次又一次的迭代,产生新的 agent 和分支,用以壮大“Alpha ”。
图 | Alpha 示意图(图源:)
然后,这些 agent 通过强化学习过程与“Alpha ”中的其他竞争对手进行比赛,以便尽可能有效地击败所有这些不同的策略,此外,还可以通过调整它们的个人学习目标来鼓励竞争对手朝着特定方式演进,比如说旨在获得特定的奖励。
最后,团队在“Alpha ”中选择了最不容易被利用的 agent,称之为“the nash of ”,这就是 TLO 所对战的5个。
为什么是"星际争霸 2"?
比赛前期, 与暴雪就联合发布了关于此次比赛的重磅预告:将在北京时间周五凌晨 2 点展示 研发的 AI 在即时战略游戏星际争霸 2 上的最新进展。如今,这个进展终于揭开神秘面纱。
而 开发星际争霸 2 AI,最早可以追溯到 2016 年。当时, 研究科学家 Oriol 在暴雪嘉年华现场透露 与星际争霸 2 紧密合作的最新进展及未来的计划。在 在 2017 年围棋大获全胜之后, 开始对外宣布,团队正在着手让人工智能征服星际争霸 2,这款游戏对人工智能在处理复杂任务上的成功提出了"重大挑战"。
在 2018 年 1 月的 大会上星际争霸2地图,谷歌 科学家 Oriol 曾对 DT 君表示,第一版的 击败了樊麾,后来下一个版本在韩国和李世石进行了对弈并取得了胜利。再后来进一步地训练网络,整个网络比之前强了三倍,赢了柯洁和其他专业棋手。团队是从零开始,一点点积累积数据训练,最后战胜了专业棋手。而除了棋类游戏以外, 比较感兴趣的,就是游戏星际争霸 2。
继围棋之后, 为什么要选择星际争霸 2 这款游戏为下一个目标呢?
星际争霸 2 是由美国著名游戏公司暴雪娱乐( )推出的一款以星际战争为题材的即时战略游戏。星际争霸 2 具备策略性、竞争性的特性,在全球都非常火爆,并且每年都会举办大量的比赛,因此也有着海量的玩家基础。
图丨谷歌 科学家 Oriol (来源:)
据 Oriol 当时透露,星际争霸 2 是非常有趣和复杂的游戏,这个游戏基本上是建造一些建筑物以及单位,在同一个地图里不同的组织会相互竞争。在这个游戏中,哪怕只是建造建筑物,也需要做出许多决策。除此之外,还要不断收集和利用资源、建造不同的建筑物、不断扩张,因此整个游戏非常具有挑战性。
而且,和围棋任务最大的不同在于,围棋可以看到整个棋盘,但是在星际争霸 2 中我们通常无法看到整个地图,需要派小兵出去侦查。另外,游戏是不间断进行的。整个游戏甚至会有超过 5000 步的操作。对于增强学习这种方法来说,除了上下左右这些普通的移动,用鼠标点击界面控制不同物体的移动以及不同的行为也是非常难的。
星际争霸 2 的这些特质,恰恰是人工智能在创新之路上需要挑战的——面对许多难以预测的突发情况,人工智能必须要既作出正确的对策,还要根据实际情况细微的调整对策。