WaiMenWM   发表于 2019-6-3 09:04:41 |栏目:

国际象棋和围棋曾是孩子的游戏。现在AI正在赢得夺旗游戏。这些技能终极会转化到现实天下吗?

孩子们会在夏季营地开放空间玩夺旗这个游戏;同时,争取旌旗这个游戏画面也是Quake III和Overwatch等热门游戏的一部门。

无论是哪种环境,这都是一项团队活动。每一方都保卫一面旗帜,同时还要计划怎样捉住对方的旗帜并将其带回到自己的大本营。赢得比赛必要良好的老式团队合作以及和谐防守和攻击之间的均衡。

换句话说,夺得旗帜必要一套看起来似乎只有人工才能操作的技能。但伦敦一家人工智能实验室的研究职员表明,呆板也可以攻克这项游戏,至少在假造天下中是可以的。

在五月三十日发表在《科学》杂志上的一篇论文中,研究职员称他们在Quake III游戏的夺旗环节中计划了自动“代理人”,这些“代理人”表现的就跟人类在操作一样。这些代理人可以大概自行组队来对抗人类玩家,也可以与他们并肩作战,根据环境相应地调解自己的举动。

附属于Alphabet的DeepMind实验室的研究员Wojciech Czarnecki表示:“这些代理人可以顺应具有任意技能的队友。”

通过数千小时的游戏,代理人学会了非常特别的技能,好比在队友即将得到旗帜的环境下极速跑去攻击对手的大本营。正如人类玩家所知,当对方旗帜被夺得并带到自己的大本营时,对家的大本营中会出现一面可以劫掠的新旗。

DeepMind的项目是积极构建人工智能应用于复杂三维动画游戏的一部门,这些三维动画游戏包括Quake III、Dota 2和星际争霸II。很多研究职员以为:假造范畴的乐成终极将提拔现实天下中人工智能的应用本领。

比方,这些技能可以使堆栈呆板人受益——当他们分组工作将货物从一个地方移动到另一个地方时,大概资助自动驾驶汽车在交通拥堵时集中导航。位于旧金山的OpenAI实验室有着类似研究项目,项目负责人Greg Brockman说道:“游戏不停是AI的基准。如果不能攻克游戏困难,就不能指望AI管理其他题目。”

直到近来,在像Quake III如许的游戏中构建一个可以匹配人类玩家的体系才成为大概,以前看来似乎是不大概的。但是在已往的几年里,DeepMind、OpenAI以及其他实验室取得了重大进展,这要归功于一种称为“强化学习”的数学技术,这种技术使得呆板能通过极端的反复试验和试错来学习。

通过一遍又一各处玩游戏,这些自动代理人可以了解哪些计谋能乐成,哪些计谋不乐成。如果代理人在队友即将夺旗的环境下通过向对手的大本营移动而不断赢得更多积分,则会将这种计谋添加到他的游戏计谋中。

在2016年,同样使用这项根本技术,DeepMind研究职员构建了使得AlphaGo在东方围棋游戏中击败天下顶级玩家的体系。鉴于围棋游戏的巨大复杂性,很多专家曾以为这种突破不会这么早实现,而是最少将在未来十年内完成。

尤其是当涉及到队友之间的和谐时,第一人称视频游戏的复杂程度是呈指数级的增长的。DeepMind的代理人通过约莫45万轮游戏来学习怎样夺得旗帜,在数周的训练中便积累了必要约莫4年的游戏履历。早先,代理人惨遭失败。但通过学习突袭对手大本营时应该怎样跟随队友,他们渐渐了解到了这个游戏的精华。

在完成这个项目以后,DeepMind的研究职员还计划了一个可以击败星际争霸II专业玩家的体系。在OpenAI实验室,研究职员构建了一个掌握Dota 2的体系,Dota 2这个游戏就像夺得旗帜的增强版本。本年四月,由五名代理人组成的团队击败了由五名天下上最优秀的人类玩家组成的玩家团队。

客岁,人称Blitz的专业Dota 2玩家兼评论员William Lee与代理人举行过一对一比赛,当时的版本不答应团队战;在当时,William对此表示爱好平平。但是当代理人继续学习比赛而且参加团队战时,他对代理人的本领感到震惊。

他说:“我曾经以为呆板不大概打五对五的,更不消说赢了。我绝对被征服了。”

这种技术在游戏中的应用令人印象深刻,但很多人工智能专家质疑它是否终极能转化为管理现实题目。专注于人工智能的乔治亚理工学院盘算机教授Mark Riedl质疑到:DeepMind的代理人究竟上并没有真正在合作。他们只是回应游戏中发生的事情,而不是像人类玩家那样互相交换信息。(以致渺小如蚂蚁也可以通过交换化学信号举行协作。)

固然效果看起来像是协作,但这是因为代理人作为个体自己是可以完全理解游戏中发生的事情。

负责该项目标另一位DeepMind研究员Max Jaderberg则表示:“怎样定义团队合作并不是我想要管理的题目。但是一名代理人在对手的大本营坐等旌旗出现这种环境,只有在依靠队友时才有大概出现。”

像如许的游戏并不像现实天下那么复杂。Riedl博士说到:“3D环境旨在使导航变得轻易。Quake的战略与和谐很简朴。”

强化学习非常适合这类游戏。在视频游戏中,很轻易辨认乐成的指标:得到更多的得分。但在现实天下中,没有人能保持得分。研究职员必须以其他方式定义乐成。

这一点是可以实现的,至少在简朴的使掷中。OpenAI的研究职员训练了一个呆板人手像孩子一样来使用字母块——告诉它给你看字母A,它就会拿字母A给你看。

在谷歌呆板人实验室,研究职员已经证实呆板可以学习拾取随机物品,比方乒乓球、塑料香蕉,并将它们扔到几英尺外的垃圾箱里。这种技术大概在将来可以应用到亚马逊、联邦快递和其他公司运营的大型堆栈和配送中心。现在,这些工作还是由人类工作者来完成的。

如DeepMind和OpenAI如许的实验室要想管理更大的题目,他们大概开始必要大量的盘算本领。因为OpenAI的体系在几个月内通过完成必要多年时间才能完成的45万多轮游戏学会了玩Dota,这依赖于成千上万的盘算机芯片。Brockman表示光买这些芯片就让实验室花费了数百万美元。

卡内基梅隆大学研究员Devendra Chaplot表示,由各种硅谷大拿,此中包括Khosla Ventures和科技亿万富翁Reid Hoffman在内资助的DeepMind和OpenAI可以负担得起这些盘算本领。但是,学术实验室和其他小型企业不能。对某些人来说,他们担心的是那些资金充足的实验室将主宰人工智能的未来。

但即使是大型实验室也大概没有将这些技术转移到现实天下的复杂性所需的盘算本领,因为这大概必要更锋利的人工智能形式——人工智能必要学得更快。固然呆板现在可以在假造天下中赢得夺旗游戏,但让他们在夏令营中开放的场地上赢得游戏仍旧无望,而且这将连续相当长一段时间。

回复
凝链下载站 - 下载导读:
1、不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。您必须在下载后的24个小时之内,从您的电脑中彻底删除上述内容。如果您喜欢该程序,请支持正版软件购买注册,得到更好的正版服务。本资源如有侵犯您的版权,请联系管理员删除本资源!
2、论坛的所有内容都不保证其准确性,有效性,时间性。阅读本站内容因误导等因素而造成的损失本站不承担连带责任。
3、当政府机关依照法定程序要求披露信息时,论坛均得免责。
4、若因线路及非本站所能控制范围的故障导致暂停服务期间造成的一切不便与损失,论坛不负任何责任。
5、注册会员通过任何手段和方法针对论坛进行破坏,我们有权对其行为作出处理。并保留进一步追究其责任的权利。

回复 显示全部楼层 使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表