反派跳到实时生成的平台,最后到达终点。
但其真实身份其实是游戏大厂EA新开发的游戏测试AI。
与普通只能玩游戏的AI不同,EA提出的新模式不仅让反派成功跳到终点,还实时打造了一个让自己难堪的平台。
为什么要设计这种又爱又杀的关系。
因为之前很多游戏测试AI经常在训练中过度拟合地图,导致他们在测试新地图时表现不佳。
因此,在强化学习的基础上,EA研究人员受到GAN的启发,提出了这种新方法——ARLPCG。
目前,Games 2021游戏大会已经收到了与该方法相关的论文。
用博弈论解决过拟合问题。
其实在游戏测试中使用AI并不是什么新鲜事。
以前很多游戏测试AI都用强化学习。
其特点是立足于环境而行动,根据从环境中获得的奖惩不断学习,从而制定出一套最佳的行动策略。
但研究者发现,强化学习对固定场景的泛化能力较差,往往存在拟合现象。
比如在同一个场景中,当只使用强化学习和训练时,当反派遇到陌生路径时,就会发生集体自杀。
这对测试游戏地图哪里出了问题真的很不利。
为此,EA研究人员参考GAN的原理设计模型,让AI自己对抗和优化。
具体来说,他们提出的方法ARLPCG主要由两个强化学习代理组成。
第一个代理生成器主要负责生成游戏地图,它使用的是Procedural Content Generation,这是一种可以自动生成游戏地图或其他元素的技术。
第二个代理是求解器,负责完成生成器创建的级别。
其中,求解者完成关卡后会获得一定的奖励,当生成器生成具有挑战性和可通行的地图时,也将获得奖励。
在培训过程中,两个代理会互相提供反馈,这样双方都可以获得奖励。
最终,生成器将学会创建各种可以通过的地图,而求解器在测试各种地图时将变得更加通用。
同时,为了调整水平难度,研究者还在模型中引入了辅助输入。
通过调整这个值,他们可以控制游戏的通过率。
比如发电机的辅助输入设为1时,其生成的平台会更大,距离也会更近,反派跳起来的难度也会更小。
辅助输入为—1时,生成的平台会变小,距离会拉开,能通关的人数会减少。
结果表明,发电机辅助输入由1降低到—1时,成功率由97%降低到69%。
此外,还可以通过调整旋变器的辅助输入值来控制通过率。
在固定路径,规则生成路径和对抗生成路径等几种情况下,通过率伴随着辅助输入的减少而降低。
其中对抗强化生成路径的通过率明显高于其他两种。
此外,由于其对未知环境的泛化能力,这种AI也可以用于训练后的实时测试。
它可以在未知路段构建合理的路线,并可以反馈路线中障碍物或其他问题的位置。
除此之外,这款AI还可以在不同的游戏环境中使用在本文中,EA还展示了它在赛车游戏环境中的表现
在这种情况下,生成器可以创建具有不同长度,坡度和转弯的路段,解算器成为在其上行驶的小车。
如果将光线投射添加到生成器,还可以在现有环境中导航。
在这种情况下,我们看到发电机在不同的障碍物之间创建了一条行驶难度较低的赛道,这样汽车就可以到达终点。
测试大型开放游戏。
因此,游戏测试变得非常重要。
目前常用的测试方法有两种:一种是使用脚本的自动化测试,另一种是手动测试。
该脚本测试速度快,但对复杂问题的处理效果不好手动测试正好相反虽然可以发现许多复杂的问题,但效率很低
AI正好可以结合这两种方法的优点。
事实上,EA提出的新方法非常便携,生成器和求解器只使用两层512单元的神经网络。
Linus gisslen解释说,这是因为拥有多种技能会导致模型的培训成本非常高,所以他们会尽最大努力让每个接受过培训的代理只有一种技能。
他们希望这款AI能够从枯燥的普通测试中不断学习新技能,解放手动测试员。
此外,EA表示,当AI和机器学习逐渐成为整个游戏行业使用的主流技术时,EA将做好充分准备。
。郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。