您的位置: 游戏资讯 > 游戏问答

体育比赛中的人工智能,这个比赛展示了人工智能

来源:网络 浏览:117 2022-11-15 03:43:01

机心报道

作者:小蛋

近几年,随着神经网络、基于强化学习的自我游戏、多智能体学习、模仿学习等通用机器学习理论的突破,AI智能体的决策能力得到了飞速发展。

体育比赛中的人工智能,这个比赛展示了人工智能

无论是谷歌、微软还是IBM等全球科技巨头,还是国内的AI领先企业,都在学术研究和产业落地方面关注从智能感知到智能决策的转变。 “决策AI”成为领域内的必争之地。

今年5月,谷歌旗下的机构DeepMind发布了Gato。 这个新的AI代理可以“在广泛的环境中”完成604个不同的任务。 GTO的诞生,再次更新了单代理的能力上限。 当然,对AI决策能力的探索并不仅限于此,如果让数量巨大的智能体在接近真实世界的开放决策环境中“狭路相逢”,会做出怎样的判断和选择,如何分工合作、竞争呢?

近日,超参数科技启动,由麻省理工学院、清华大学深圳国际研究生院、知名数据科学挑战平台AIcrowd联合主办的“IJCAI 2022-Neural MMO海量AI团队生存挑战”落下帷幕在这场比赛中,我们发现了几种进行新探索的可能性。

复杂环境下的多智能体博弈

近年来,多智能体环境已成为深度学习的有效研究平台。 目前,加强学习环境十分复杂,但限制条件太多,普遍性不强的限制条件不多,但过于简单。 这些问题限制了更复杂的任务的创建,难以挖掘多智能体更高的决策能力。

2019年,MIT博士生Joseph Suarez在OpenAI实习期间开发了Neural MMO。 他参考大型多人在线游戏( MMO ),模拟了庞大的生态系统。 系统中包含各种数量的主体,使它们在持续广阔的环境中竞争。 业内人士认为,“这个模拟相当有趣”。 与以往着眼于技术水平的AI游戏对战环境不同,Neural MMO与AI的长期判断和选择相关,更考验智能体的决策能力。

“IJCAI 2022-Neural MMO大容量AI团队生存挑战”正是使用这样的环境。 据主办方介绍,选择Neural MMO主要基于两点。 一般来说,Neural MMO类似于开放世界的生存游戏,本身就有自己的运营系统,定义了采集、攻击、生存等基本机制。 另一个是支持大量AI的共存、相互作用和出现策略。 无论是学术界还是工业界,这种环境都不多见。

空MMO环境

在这场比赛中,每个游戏包含16支队伍,每个队伍包含8个代理人。 这些特工队必须在128x128的地图上自由对抗。 根据主办方的设计,每个特工队都要达成觅食、探索、竞争、奇妙四项成果。 这意味着每个环境中有128个代理同时进行决策,每个团队的8个代理为了不同的目标有效地进行合作分工。

在这种情况下,每个特工都要发挥自己的优势,必要时,为了让球队取得“最后的胜利”,一些特工必须学会“主动送人”。 由于环境中有多个主体同时学习,因此主体们不仅要考虑自己期待什么样的报酬,还需要考虑对方可能采取什么样的战略。 而且,由于每次对战都要完成4个任务,并且是分层次配置的,所以各主体面临的“选择”具有更高的决策复杂度。

将大量代理人“卷”

对学术性比赛来说,不仅要找到好问题,而且有足够数量的好选手。 为此,主办方从比赛规则、道具、赛事支持等方面全面优化了Neural MMO挑战赛。

在工具级别,“IJCAI 2022-Neural MMO海量AI团队生存挑战”升级了提交系统,将从初始成功提交到返回结果的时间从原来的2小时以上减少到10分钟。 此外,挑战还提供了新的StarterKit和Baseline。 在StarterKit中,参与者只需跑一次代码就可以完成首次提交,在Baseline中,用户只要训练两天就可以达到Stage 1 0.5的胜利率,进行4天的训练就可以获得Stage 1 0.8的胜利率。

这些设计可以帮助参与者在早期阶段迅速熟悉规则,并节省大量时间。 节省时间,参与者们可以将思考重点放在定义Neural MMO环境中代理的决策方式上,例如报酬信号的设计。

在比赛制中,这个Neural MMO挑战采用了PvE和PvP相结合的方式。 在PvE阶段,每个Stage的内置AI难度逐渐增加,参与者由此感到“梯度”。 Stage 1难度最低,它包含基于简单规则编写的开放源代码脚本。 之后,Stage 2的难度将会更大,主办方将基于经典的PPO算法训练内置AI,并加入自助游戏( Self-Play )的训练机制。 到了Stage 3,智能体的综合能力进一步提高,选手们面对的已经是高度团结的竞争对手队伍。

在PvE阶段获得,成绩达到25的队伍可以晋级; 但是,在PvP阶段,难度上升,对战对象从内置AI变成了其他参赛选手队。

让8个智能体小组执行任务是合作博弈中的典型问题。 如果说在PvE阶段的前两个阶段,单人球也能取得一些成绩的话,那么随着环境内置AI变强,对手从环境内置AI成为现实世界的参赛队伍,出场的代理队也必须完成脱胎换骨的进化。 以此来理解如何达成“团队最佳决策”。

基于这样的改进,不同级别的参与者可以在这场比赛中找到适合自己的参赛目标。 但同时,为了获得顶级排名,考验了agent的综合决策能力,要求对agent的算法设计有更深入的思考。

RL算法选手,后来者居上

经过三个月的激烈角逐,来自业界的两支球队脱颖而出,获得了这次挑战的冠亚军。 有趣的是,两个队都采用了强化学习算法,最后一个月参加了比赛。

冠军队LastOrder表示,MMO比现有的其他多代理环境有更多的内容,包括生存、战斗、升级、球队点球、随机地图等。 与其他同类比赛不同,Neural MMO挑战赛对参与者的规则限制较少,为加强学习算法的应用提供了广阔的发挥空间。

NeuralNoob是亚军,他认为Neural MMO最明显的特征在于其支持的海量代理。 这次比赛的设定是128个,但实际上可以增加到上千人以上。 “是一个多任务环境,每个代理都需要根据需要改变策略,具有更大的研究价值。 " "

在比赛中,LastOrder设计了具有高度灵活性和可扩展性的分布式增强学习训练框架Newton。

他们通过薪酬设计等方式间接促使代理人采取合理行动。 在设计了合理的报酬、神经网络结构等之后,他们观察到深度强化学习训练后的智能体发生了自主合作行为。

“启发式算法的优点是思路更简洁,反馈更直接。 相比之下,强化学习需要更长的训练时间来进行网络结构和参数的调整。 “但强化学习算法能达到的能力上限更高,值得探索,”LastOrder说。 " "

NeuralNoob同样采用了强化学习算法,整体方案为ppo算法和自游戏( self-play )训练机制,所有智能体的训练将8个智能体作为一个团队进行训练,value部分为团队整体的训练

LastOrder表示,MMO这个平台有更多的想象空间,包括引入更多的游戏元素,成为开放的网络游戏,促进关于Human in the loop等领域的研究。 对此,NeuralNoob持同样观点,认为智能体可以选择更多样化的装备,可以设置安全区,使智能体到达安全区后无法开始攻击,同时与敌方智能体进行装备交易。

在NeuralNoob的构想中,智能体甚至可以暂时与敌方智能体合作杀死强大的内置AI,但与敌方智能体的合作符合MMO在现实世界中合作与竞争共存的关系。

NeuralNoob认为,这些是强化学习的目前困难之处。 像openai five这样强大的东西也通过手写规则实现了路线图。 因为直到装备选择为止被设计的训练样本所占的比例会变小,但依赖链却很长。

智能决策的“今天”和“未来”

从更长远来看,Neural MMO环境提供了一个广阔而自由的学术框架,可以推动一些种群层面的行动研究,比如如何有效地组队,它可以衍生社会学、经济学方面的概念研究,这些都是因此,“IJCAI 2022-Neural MMO海量AI团队生存挑战”在学术研究层面的意义也更加凸显。

对决策智能的学术研究希望在现实产业场景中发挥价值,包括但不限于商业游戏、量化交易等。 在现实生活中,决策的代价可能非常大。 这是因为,一方面,决策与结果直接相关,决策水平的高质量与结果带来的收益直接相关。 另一方面,为决策设定的环境相当复杂,如果要在现实世界中进行预演,成本也会非常高。

在学术界、行业的智力决策探索过程中,Neural MMO无疑希望成为一个良好的考试载体。 但现实中的智能决策往往更为复杂,具有更长的决策链。 要进一步进行模拟,使Neural MMO更接近现实的决策环境,需要在整个行业进行长期的探索。

据了解,超参数技术将基于2022 NeurlPS会议举办新的NMMO挑战。 与“IJCAI 2022-Neural MMO海量AI团队生存挑战”相比,新赛事增加了交易系统,丰富了装备种类、多职业分工和毒轮机制,开放环境更加契合现实决策环境。 同时,持续丰富的主体间合作与竞争的交互方式也大大提高了决策多样性、战略深度和合作竞争的可能性。

Neural NMMO系列挑战中,智能体与环境中的内置AI、敌方智能体、队友之间产生大量交互,形成实时反馈,在动态决策环境下达到最优决策,研究结果为智能决策技术的发展在不久的将来,智能决策技术将成为数字化转型的加速器,推动能源、物流、工业等产业领域的研究落地和成果转化,为更多“不确定”的真实决策场景提供相对的“确定”答案。

和平精英体验服官网「V3.02」IOS版

和平精英体验服官网「V3.02」IOS版

  • 分类:资讯阅读
  • 大小:17MB
  • 语言:简体中文
  • 版本:V3.02