好百科首页 > DeepMind全种族压《星际2》人类玩家，AI征服游戏之巅

DeepMind全种族压《星际2》人类玩家，AI征服游戏之巅

DeepTech深科技 2019-10-31 浏览265次

官宣！DeepMind AI 开发的星际争霸 2 AI"AlphaStar"进化成了完全体"AlphaStar Final"，三个种族（神族、人族和虫族）均达到欧服战网宗师组级别，最高达到 6275 分，在遵守所有游戏规则的情况下，超越了 99.8% 的欧服玩家！有关新版 AlphaStar 的论文也登上了Nature杂志。

与今年 1 月只会使用神族的状态相比，AlphaStar 不仅精通了三个种族，会玩四张地图，更重要的是，它的手速和视野被限制到了跟人类相似的水平，以职业选手 TLO 的有效 APM 为校准基准，最多在 5 秒内完成 22 个不重复指令，操作延迟限定在 110 毫秒左右，不会再出现 1500 峰值 APM 的变态操作，也不会看到当前镜头以外的单位信息，但是可以选中它们（人类也可以通过编队实现这一操作）。

根据 DeepMind 介绍，AlphaStar 于今年 7 月正式登陆星际 2 战网，开始以匿名的方式和欧服天梯玩家对战，以确保得到公平对战。得益于新算法的帮助，完全体版本 AlphaStar Final 的竞技水平突飞猛进。

在不到 4 个月的时间里，它使用每个种族进行了 30 场天梯比赛，三个种族的水平都达到了宗师级别：神族 6275 分（胜率 83%），人族 6048 分（胜率 60%），虫族 5835 分（胜率 60%）。

图 | AlphaStar 的天梯表现（A）；AlphaStar 对战各种族的胜率和分数（B）；AlphaStar 和职业选手 TLO 的有效 APM 对比（C）（来源：DeepMind）

星际 2 职业选手 DARIO“TLO”W?NSCH 表示，“我觉得 AlphaStar 的水平令人印象深刻，它非常擅长评估它所处的战略地位，十分清楚什么时候交战，什么时候撤退。尽管 AlphaStar 拥有精准的控制操作，但并不会给人一种非人类的感觉，完全不是人类理论上无法达到的水平。总之，跟它对战就像跟真人玩星际一样。”

开创性的“组队训练”

在战网上，AlphaStar 共有三个版本同时进行测试，后缀分别是 Supervised，Mid 和 Final，其中最弱的版本是 Supervised，最强的则是 Final。三者最大的不同点在于模型训练方式和训练时间。

Supervised 版本使用了监督学习和强化学习进行训练，从人类玩家的录像中学习游戏技巧，因此使用的战略也都受到了人类玩法的启发。最终它达到了钻石组水平，约为 3700 分。

为了进一步提升竞技水平，DeepMind 研究团队试图从根本上改变 AI 的训练方式。目前常用的 AI 训练策略主要围绕“自我对弈（self-play）”和“虚拟自我对弈（Fictitious self-play）”展开。

自我对弈是一个开放式的学习过程。在训练时，人类只需要设定好游戏规则和环境，让 AI 不断跟自己对打，就可以使其逐渐熟悉游戏规则，掌握获胜要领，从而不断提升游戏水平。

图 | 自我对弈和引入 Exploiter 的区别：后者可以帮助 AI 主体制定更全面的策略（来源：DeepMind）

但自我对弈也存在局限性，AI 可能会因为掌握了新的获胜技巧，而忘记之前学习的、与现有技巧矛盾的技巧。

为了解决这一问题，“虚拟自我对弈（Fictitious self-play）”策略诞生了。OpenAI 开发的 OpenAI Five 就是基于自我对弈等策略学会了如何打 Dota，在有条件限制的前提下战胜了人类 Dota 2 职业队伍和世界冠军。

DeepMind 研究团队一开始也是用这种方式训练 AlphaStar，但他们发现 AI 的竞技水平似乎达到了瓶颈，无法突破，于是他们发明了一种新的“联盟训练（League Training）”策略。

前面提到的 Mid 和 Final 版本都是联盟训练策略的产物，只不过 Mid 训练了 27 天，Final 训练了 44 天，两者天梯相差 1000 分左右。

这种策略借鉴了人类玩家提升水平时使用的办法：寻找训练伙伴，以组队的方式训练。有些队友存在的意义不在于替代玩家击败对手，而在于帮助玩家发现缺点或者训练特殊战术，从而提升竞技水平。

图 | 在 Exploiter 的帮助下，AI 主体学会了应对速推流（来源：DeepMind）

研究人员在“联盟”系统中设计了三种 AI 代理类型。

一类是 AI 主体，使用“优先虚拟自我对弈”机制，目的就是为了获得胜利。剩下两类都是训练伙伴，被称为 Exploiter（漏洞发现者），其中一类负责寻找 AI 主体存在的漏洞，比如对战过程中过分追求微操作而忽视了经济发展，鼓励 AI 主体改进这些弱点；另一类则负责寻找联盟系统的漏洞，矫正系统整体的发展方向。

简单来说，DeepMind 认为仅仅告诉 AI“你必须要赢”是不够的，因此给 AI 安排了两个专门挑刺的训练伙伴组成一个联盟，专门找出 AI 打游戏时哪里做的不好，再反馈给 AI，帮助它改进这些缺点。由此看来，这两个伙伴更像是扮演了教练的角色。

研究人员强调，为了保证训练伙伴的多样性和 AI 主体的学习速度，两个 Exploiter 会定期重新初始化。

模仿人类

DeepMind 还指出了 AI 打星际时的另一个难题：探索（Exploration）。

星际 2 有着复杂多变的环境，在一个时间点可以执行的动作空间高达 10^26 种，哪些行动可以带来胜利，哪些行动会导致失败，AI 不可能在短时间内穷尽，在零基础的前提下想要从中寻找获胜之道非常困难。

虽然 DeepMind 给三个种族训练了三个独立的神经网络，保证其战术的独特性和一致性，但同一种族的开局仍然存在很多不同的打法，是稳扎稳打攀科技，还是直接速推对手，很多时候都要根据局势改变已有策略，见招拆招。

图 | AI 主体找到了克服缺陷的办法（来源：DeepMind）

因此 AlphaStar 在训练前期就使用了模仿学习（Imitation Learning）来学习人类策略，模仿人类的打法，然后在自我对弈过程中不断摸索和开发新的策略，但也会在一定程度上更偏向模仿人类策略，不会只遵循一种开局方式。

除此之外，研究人员还用到了离线强化学习（off-policy），用过去游戏中总结的策略更新和完善现有策略。

“AI 可以自己制定不同于人类的策略，这很令人兴奋。现在对 APM 和视野的限制将 AI 和人类拉到了相似的起点，让游戏更具吸引力了。不过作为职业选手，我仍然可以发现它存在某些弱点，”星际 2 职业选手 Grzegorz "MANA" Komincz 表示，他曾是 AlphaStar 的手下败将。

归功于模仿学习、强化学习和联盟训练策略，DeepMind 训练出了“完全体”AlphaStar，尽管仍然存在漏洞，但从只会一个种族到全种族称霸，从因为 APM 饱受争议到限制 APM 晋级宗师，AlphaStar Final 的表现的确令人刮目相看，甚至有可能启发人类玩家开发新的战术。

不过成为星际 2 宗师并非 DeepMind 团队的最终目标，他们希望借助复杂多变的游戏世界测试 AI 系统的潜力，试图找出通向通用人工智能技术的核心要素，将类似的 AI 系统转化成具备实用价值的、为人类服务的工具。

DeepMind 还放出了 AlphaStar 的对战视频，链接如下：

https://deepmind.com/research/open-source/alphastar-resources

经验内容仅供参考，如果您需解决具体问题(尤其法律、医学等领域)，建议您详细咨询相关领域专业人士。如需转载，请注明版权!

标题：DeepMind全种族压《星际2》人类玩家，AI征服游戏之巅网址：http://www.jrxk.cn/view/182647.html

发布媒体：好百科作者：DeepTech深科技

好百科首页 > DeepMind全种族压《星际2》人类玩家，AI征服游戏之巅

DeepMind全种族压《星际2》人类玩家，AI征服游戏之巅

热搜经验：