从 0 开始在《我的世界》中挖出一块钻石,需要多长时间。对于熟悉游戏的玩家来说,可能只需要几分钟的时间:
图源 YoutubeItzJhief
可是对于 AI 来说,15 分钟内可能都挖不出 1 块钻石!
为了发掘 AI 的潜力,CMU,微软,DeepMind 和 OpenAI 联手在顶会 NeurIPS 上举办了一个名叫 MineRL 的竞赛,要求参赛队伍在 4 天时间内,训练出一个能在 15 分钟内挖出钻石的 AI矿工。
从往届表现来看,冠军连 40 分都拿不到,甚至举办方给出的 AI Baselines 只能达到 2 分左右的水准。
今年,腾讯的绝悟 AI 却以 76.97 分的绝对优势一举夺魁,成功成为挑战赛历史上挖矿最迅速的 AI。。
红色为绝悟 AI 分数
腾讯 AI Lab 是怎么拿到冠军的。
AI 矿工为何难以挖出钻石。
之所以 AI 难以在竞赛中迅速挖出钻石,主要有两方面的原因一方面,《我的世界》游戏本身对 AI 有难度
作为开放世界游戏,它的初始世界完全随机生成,而迅速合成钻石又需要比较复杂的步骤:既不能只用一种工具,也不能一挖到底。
通常来说,从 0 开始挖钻石最快的方法,分为 7 个步骤。第一步,玩家在空手进入《我的世界》中时,需要先找到树上的木头,用来获取木块:
第二步,将这些木块用来合成工作台:
第三步,在工作台上合成木镐,用来挖原石:
第四步,获得原石之后,需要合成一个石镐,用来快速挖铁矿:
第五步,为了将铁矿合成铁锭,还需要做一个熔炉来烧铁:
第六步,合成铁镐,用来挖出钻石:
第七步,寻找钻石,并用铁镐来挖出最终的钻石:
看到这里,就知道挖矿对于 AI 来说,已经很复杂了,不仅面临大量决策,还需要考虑时间问题。
另一方面,为了增加难度,举办方还特意给AI 矿工们增加了不少限制。
禁止参赛者编写规则,游戏环境将背包信息与动作空间加密,不允许使用预训练模型,AI 与环境交互不超过 800 万次,只能使用 6 核 CPU + 半张 NVIDIA K80 显卡训练 4 天。
当然,这样做是为了让各大高校的学生也有能力参与这次挑战赛,不至于出现硬件上军备竞赛的问题。
面对来自游戏和举办方的挑战,腾讯的绝悟 AI 是如何成为一名优秀矿工的。
如何让 AI 更快地挖矿。
首先,是整体训练策略的问题。
要想让 AI 在短时间,少算力的情况下变得会挖矿,首先就要改变训练策略。
这种情况下,不可能再用强化学习对 AI 进行整体训练。
因此,腾讯 AI Lab 将强化学习进行了升级,提出了一种基于分层强化学习的方法。
简单来说,就是将挖出钻石的过程像人一样分成几个具体的步骤,每个步骤都有一个小目标,让 AI 在完成一个目标后,能迅速地实施下一个目标。
然后,就是三个细节上的问题了。
其一,开放地图的理解问题由于表示学习在《我的世界》这样的 3D 场景中效果很差,腾讯 AI Lab 设计了一种基于动作感知的算法,来捕捉每个动作对环境的影响
这种方法快速地提升了 AI 在开放世界中获取资源的速度。最近Reddit上的一位博主发布了一篇今年的NeurIPS大会论文汇总,其中的每篇论文下方都有一句由AI生成的高度凝练的总结。
其二,策略选择问题在游戏进行到一定阶段后,AI 与人的思路会发生一些差异,仅凭人类数据训练,对 AI 的提升作用有限为此,腾讯 AI Lab 采用了自模仿学习的算法,从自己的实践中获得教训和经验,来降低进入危险区域,做出错误决策的概率
其三,合成物品问题合成物品对于人类来说非常简单,可是 AI 却总是不容易合成它,成功率一开始甚至只有 35% 左右为此,腾讯 AI Lab 采用了动作序列一致性过滤+ 基于投票的集成学习方法,最终将合成物品的成功率提升到 96%
最终在评分中,绝悟 AI 的分数达到了 76.97 分。
事实上,在游戏 AI 上一路向前的绝悟,已经历了数次进化从最初攻克 Atari 游戏开始,到后来的棋牌游戏 AI绝艺,掌握一手围棋,象棋,麻将的绝活再到现在的策略协作型 AI绝悟,从 MOBA,FPS 再到开放世界游戏《我的世界》,这个基于强化学习训练的智能体正在变得愈发复杂
这次的《我的世界》版绝悟 AI 论文也已经放出,感兴趣的小伙伴可以冲了~
《我的世界》版绝悟 AI 论文地址:
参考链接:
。郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。