您的位置: 游戏资讯 > 游戏问答

dota2openai第一局,openai dota2 solo

来源:头条 浏览:0 2022-12-16 10:05:01

爱玩评测出品,转载请注明出处。

昨天早上,OpenAI Five在Dota2的竞技场上虐待人类结束的消息传出。 算上由观众组成的业余队,加上由前职业选手和现役职业选手组成的半职业队,人类首先被血腥地投了4局,最后的尊严战让AI在前期的线上吃了亏,在选择了己方在线上很强的5人队之后,终于取得了胜利。

dota2openai第一局,openai dota2 solo

虽然不夸张,但这次人类方面惨败了。

Dota2是世界上最受欢迎和复杂的电竞游戏之一,世界上最有天赋的职业运动员日夜训练与其他运动员争夺每年4千万美元的奖金池。 这是目前所有电竞游戏奖金中的最高标准。

但是,与人类不同的是,人工智能OpenAI Five每天都和自己对战,一天可以打200万场比赛。 据开发者介绍,这是“自助游戏”。 高强度的训练不会给机器带来负担和负面影响,只会在持续实战中变得更聪明。

Dota这个AI有什么不同?

虽然同样是人工智能,但与此前精通象棋的AlphaGo不同,在《星际争霸》和《Dota2》这样复杂的计算机游戏中超越人类,是AI发展史上一个重要的里程碑。

alpha go席卷人类围棋界引起了巨大的关注

与棋盘游戏相比,Dota2作为5V5的多人对战游戏,每个玩家都必须控制英雄,AI的上手门槛和应该熟悉的标准太高了。

高强度指令运算:

Dota2以每秒30帧执行,假设平均对局时间为45分钟。 一场比赛可以操作8万帧。 大多数操作,如移动英雄,逐帧操作对总体战局的影响比较小,但重返城市等行为在战术水平上影响战局的结果。

如果人工智能每4帧操作一次,一场比赛需要操作2万步。 而且,这每一步都是经过战略逻辑运算的结果。 如果对两万步没什么概念的话,这里举个例子,国际象棋一般40步就能“打”完,而围棋需要150步。 相比之下,Dota2的运算量真的进展得很快。

有限的可视状态:

Dota的战局被战争的雾笼罩着,职场和建筑物只能看到周围的区域,黑暗的区域里隐藏着敌人和愚蠢的策略。 玩家需要根据这个不完全的数据进行推理,模拟对方可能做的事情,制定有针对性的计划。 在这一点上,国际象棋和围棋的棋盘信息完全暴露了。

高维连续工作空间:

在Dota,每个英雄可以采取几十项行动,许多行动要么针对另一个单位,要么针对地面上的一个位置。 我们把每个英雄的空间离散成17万个可能的动作(不是所有的动作都有效,例如使用一个冷却中技能),平均每个动作有1000个有效动作。 但是对于国际象棋和围棋来说,这个数字是35和250,差距很大。

高维连续可见空间:

Dota是一款以巨大的动态地图进行比赛的游戏,包括10位英雄、数十座建筑物、数十台NPC和多种游戏功能,如符文、树木、区域等。 在OpenAI Five的模型中,通过Valve的BOT API状态观察到Dota游戏为20000 (主要是浮点数),这是一个人可以访问的所有信息。 国际象棋棋盘表示为约70张( 8x8的6张类型的棋盘和小棋盘),围棋棋盘约400张( 19x19张类型的棋盘) )。

Dota已经开发了10多年,游戏的逻辑运算通过数十万行代码实现。 每次运行需要毫秒,而国际象棋和围棋引擎只需要纳秒。 而且游戏每两周更新一次,整个环境不断变化。 凭借这一昂贵、复杂、多样化且庞大的算法,OpenAI Five不得不以更有效的方式学习游戏。

OpenAI Five有自己的学习算法

OpenAI Five系统使用非常复杂的“局部策略优化”( Proximal Policy Optimization )。 它包括OpenAI Five和以前的OpenAI 1v1 BOT的“自我游戏”方法。 一切都从随机参数开始,不使用定向搜索和人类比赛回放进行引导。

前后两个系统的效率提高是巨大的

研究人员通常相信,长期发展需要根本性的进步,例如分层、加强和学习。 OpenAI Five还没有发挥出真正的实力,至少需要通过合理的方法进行探索才能将其充分发挥。

当前版本的OpenAI Five在决定是否给予歼敌( last-hitting )时,目标优先级和专业策略一致。 由于组队推塔需要时间,要获得地图控制等战略长期回报,往往需要牺牲Farm经济等短期回报。 这个事实确实证实了AI需要多一点时间调整的事实,但请不要担心。 AI有适合它们的学习过程。

模型结构:

OpenAI Five使用的空间观测和空间行动的相互作用是,将Dota的游戏世界看作包含20000个数据的表,通过发行包含8个列举值( enumeration values )的表来采取行动。 不同的操作、编码会影响不同角色的行为。 如上图所示,一个攻击命令的选择多得惊人。

该系统的伟大之处在于可以不断学习原本缺失的动作。 例如,一开始AI不会离开“持续范围伤害区域”,但经过几次实战受到那样的伤害时,就已经主动离开了这个区域。

搜索( Exploration ) :

该系统使AI具有较强的自我学习能力。 一开始被丢在空白的大地图上的时候,随便闲逛,死了各种各样的奇怪。 渐渐地,他们开始学会了逃避和伤害,学会了神符给它们带来好处,猎人打倒塔来压制对方,商店买东西去得到更好的装备,五人团战中构筑比一个人推塔更大的优势等等通过不断的探索,AI不断丰富自己的实力,他们慢慢丰富了羽翼。

调整:

OpenAI Five没有像人那样的思维交流方式,通常被称为团队合作的“团队精神”是由参数控制的。 因为团队精神从0到1各不相同,控制每个AI的英雄应该关注个人发育状况的程度,而不是粗暴地给出团队的平均值。

快速( Rapid ) :

虽然前面的一些系统仍然在为一场比赛中的一些英雄训练,但是这个系统可以表达为一个人的健身房。 AI在这个环境中进行自我竞争以强化自己,不断优化现有节点。 想象一下世界上能进行下一次自我超越的优秀的人。 而且,这个过程是持续的、不间断的,OpenAI Five在短时间内达到职业水平自然不是难以置信的事情。

骄人的战绩

到目前为止,OpenAI Five参加了很多实际比赛。 当然比赛制是有限制的。 这里有五个团队。

1. OpenAI员工团队: 2500MMR(46%、

2 .从观看员工比赛的观众中选择的玩家: 4000-6000MMR(90-99 ) ) ) ) ) ) ) ) )。

4. Valve员工队伍: 2500-4000MMR(46%-90%、

5 .业余团队: 4200MMR(93%、

6 .半职业组: 5500 MMR (百分之九十九)。

注:上面的百分比是Rank积分所在的玩家等级,不是胜率。

比赛并不是一蹴而就的,4月23日的版本是第一个超越AI脚本预测线的版本; 5月15日的版本与1队打成平局,赢1场,输1场; 6月6日的版本决定性地战胜了前三支球队,对第四支和第五支球队的比赛结果,原本预计会输得很惨,但OpenAI Five竟然在前三场比赛中连续赢了两场,结果出人意料。

赛事分析师明确观察到AI具有明显的战略意图:

首先,牺牲优势路线,压制敌人优势道路,让劣势一方疲于防守。 这个战略具有相当的专业性,人类战队经过长时间的实战训练成长到现在,AI很快就掌握了。 其次,在Gank的时候AI更早撒网,目的明确,行动迅速。 拿下敌人英雄后,在敌人队友支援来之前迅速拿下防御塔。

再次,AI也能有效赋予不抢资源的支援英雄早期经验,更快成长为优势水平后支援边路,通过技能和水平优势扩大战果。 该技巧可以有效抓住劣势方的错误并快速建立优势,同时容易犯错误。 但是对于高精度的AI来说,严密的逻辑程序擅长计算。

比赛结束后,人和AI分别获得了表彰奖杯

通过这些比较,您可能了解了OpenAI Five特有的优点。 它们是严格的、技术的、勤奋的、科学的,与智能相关的进化场所似乎就摆在它们身上。 但是,这无论如何都会变得笼统,所以我们来对AI和人类实际玩Dota2的情况进行比较吧。

AI和人类做Dota时的区别

OpenAI Five可以访问的游戏权限与普通玩家相等,有英雄、兵线、防御塔、人头比等。 但是,我们人类必须手动打开相应的菜单才能注意到部分信息,看完就必须关闭它,而AI完全不需要花这个时间。

AI次的平均每分钟有150-170次命令。 理论上每4帧可以达到450次。 对于熟悉Dota2的玩家来说,这是完美状态时的发挥,但对于OpenAI Five来说,这只是微不足道的举手之劳。 关于反应时间,OpenAI Five的平均反应时间为80 ms,优于人类。

虽然不想承认,但是未来的AI很有可能会展示出我们最想看的高质量的对局

该差异在1v1时尤为明显,但通常bot的反应时间为67 ms。 但是,这种竞争环境也比较公平,所以也有人向机器人学习并适应。 数十名职业选手在去年Ti联赛的最后几个月采用了1v1的机器人bot训练法。 不要以为计算机只有固定的型号。 他们的节奏更快,学习能力非常强。 今天,站在河边利用士兵的位置对其进行掩护,下次比赛就要警惕,也可以学习使用。

OpenAI Five队,他们手上拿的是去年在1V1体育场击败冠军级选手的笔记本电脑

总结

OpenAI Five的成绩值得骄傲,但现在并不完美。 昨天早上的比赛有很多限制。 例如,AI只能掌握18位英雄。 召唤单位和幻想也不会出现。 不能使用圣剑或瓶子。 而且,需要五个无敌的信使。 不过,OpenAI Five官方也表示,将AI的反应时间从80ms降低到200ms,在电脑芯片上并不便宜。

现在,OpenAI Five希望将来征战Ti8,他们的目标是下马顶级职业选手。 如果他们真的能通过现有算法加强自身来实现这个目标,那就确实可以证明现在的AI已经发展到了不容小觑的水平。 以Dota2这个复杂又可以说是冗长的游戏为例,它对AI来说是一座难以逾越的山,但也并非总是不可能的。

更多最新游戏评测,关注爱玩评测微博,这里有最新大作资讯,最权威的消费指南。

和平精英体验服官网「V3.02」IOS版

和平精英体验服官网「V3.02」IOS版

  • 分类:资讯阅读
  • 大小:17MB
  • 语言:简体中文
  • 版本:V3.02