智齿AI研究院深度解读:AlphaStar大胜星际争霸2职业玩家的技术秘密-每日科技网-报道科技公司的新科技创新!✅

【每日科技网】

　　北京时间 1 月 25 日凌晨2点,DeepMind和暴雪娱乐举办了一场网络直播,第一次公布了其录制的 AI 在《星际争霸 2》中与2位职业选手的比赛过程:AlphaStar5:0 战胜职业选手TLO ,5:0战胜 2018 年 WSC 奥斯汀站亚军MaNa 。与两位人类对手的比赛相隔约两周,AI 自学成才,经历了从与 TLO 对战时的菜鸟级别,进化到完美操作的过程,尤其是与 MaNa 的对战,已经初步显示了可以超越人类极限的能力。

　　这次的演示也是 DeepMind 的星际争霸 2 AI AlphaStar的公开亮相。除了此前比赛录像的展示外,AlphaStar 还和 MaNa 现场来了一局,不过,这局AlphaStar 输给了人类选手 MaNa 。

　　今天,我们从技术角度聊聊:星际争霸2人机对战背后,AI获胜的意义与原因。

　　「智齿AI研究院」吴科许思佳苏苏作者

　　AI为什么总是挑战专业游戏玩家?

　　关注AI、游戏领域的人或多或少会感觉到,AI似乎总是盯着游戏。从国际象棋到围棋、甚至到现在星际争霸2,AI对游戏的挑战屡见不鲜。

　　这是为什么?我们首先来想想:

　　1. 国际象棋挑战

　　IBM深蓝(DeepBlue)超级计算机1997年5月12日击败卡斯帕罗夫,从那至今,计算机程序已陆续击败不少世界国际象棋选手。

　　最早时候,计算机通过算力完成对弈,通俗理解便是计算机的“暴力搜索”。一些科学机构认为,那时候的计算机还算不上智能化,由于国际象棋的落子与棋盘本身的搜索空间都较少,因此对AI的算法要求并不高。这也就是为什么1997年深蓝陆续击败了不少世界象棋选手,却并未引起轰动的原因。

　　后来,谷歌旗下的DeepMind(人工智能公司)的AlphaZero,它通过强化学习算法自我对弈。而当AI开始进行自我对弈的强化学习后,才真正开始体现出智能化能力,也预示着AI在某些方面确实较人更为厉害,甚至于说是超神。

　　2. 围棋大战挑战

　　围棋具有比国际象棋搜索空间更大、不可控因素更多的特点,但这也恰恰印证了AI在搜索、计算、推理、记忆、学习等方面的能力。在这一阶段,AI加入了更的算法——深度学习和强化学习,AI通过与自己博弈,把在围棋中所有的可能进行穷尽试探,从而摸索出多种“套路”,再将这些“套路”应用到与人类的对弈当中,从而让陷入固有模式的人类选手“摸不着头脑”,产生“AI不按照套路出牌”的感觉,最后打败人类。

　　但是,这并不意味着AI目前已经“超神”。很多科学家和机构认为,就围棋层面来说,AI确实打败了人类,却也暴露出了更严峻的问题,即围棋是信息完全透明的状态下,较为简单地完成任务。然而,在真正的应用场景中乃至商业领域,很多场景并不透明,所以AI需要更大的突破,才算真正的智能。

　　星际争霸2此次挑战赛,AI进阶的一小步

　　如何才能实现更新的进展及突破?显然,即时战略类游戏更符合AI的“胃口”,它具有信息不透明的特点,AI需要和人类选手一样,探索地图和了解对手现状才能获取更多信息。星际争霸2的不可预测性远大于围棋,玩家可以在同一时间会有300种基本动作可选择,即使在一个84x84像素的屏幕中,也会产生大约1亿个不同的动作。

　　面对如此挑战,在对AlphaStar进行研发的过程中,谷歌采用TPU v3 构建了一个高度可扩展的分布式训练系统,该系统支持很多智能体从星际争霸2的数千个并行示例中学习。因此,它比一般的GPU更强、计算能力更快,并且运用了强化学习的技术算法。AlphaStar此次对战前,得到了星际争霸2团队开放的65000场比赛数据的缓存以及50万次匿名游戏回放和其他研究成果。最终,才使得AlphaStar在算力、算法、数据等多维技术融合下,发觉任务状态穷尽所有可能,完成多种套路的自我学习。

　　AlphaStar通过多重技术,最终在星际争霸2中具备了全局优势判断的能力,它判断多维任务、状态、事件后作出的决策,从而实现了胜利。这就很像我们人类在商业中的长序列决策,即在各种场景、能力、匹配度、针对性等条件中,作出解。

　　我们在做智能客服领域AI时的会话管理模块也与之非常相似,机器人在通过一系列的存储、匹配、推理、策略等诸多维度判断,最终作出与用户的交互决策,从而输出用户需要得到的内容。

　　回到本次比赛,AI开始在即时策略类游戏中取得了胜利,充分说明了人类在人工智能领域又向前迈进了一小步。为什么只能算一小步,下面会继续说。但我们去看这小小的一步,也同样充满了各种底层技术的集成与发展的成绩。

　　AI的神操作,展现了哪些优势?

　　实际上,AI的优势主要体现在几大方面,如算力、策略能力、学习能力、记忆能力等。而这些能力优势,依靠的不仅仅是深度学习,也包括诸多技术能力的集合和AI背后那些大量数据、算法的支撑。

　　1. 计算能力

　　计算能力顾名思义,是对AI层的算力支撑,它可以使AI计算能力更强、速度更快。现阶段大部分AI产品应用的硬件算力支持使用的都是GPU,而谷歌的AlphaStar使用的则是算力更强的TPU,这使得它的计算速度和计算能力都在普遍的AI之上,优势明显。

　　2. 策略能力

　　在星际争霸2的游戏当中,AlphaStar表现出了较为强大策略能力。它通过深度学习与强化学习的相结合,学习和实践了大部分人类的打法套路,最终运用出其不意、却也经过千方百算的方式完成了战略判断和决策,使自己的战略局势始终保持地位。AlphaStar虽然在后面也表现出了固有的一些模式漏洞,但不得不说,AI的策略能力更强。

　　3. 记忆能力

　　早在此前的棋类游戏对弈的过程中,AI就表现出出色的记忆能力。在整个比赛过程中,人类选手很难在赛程中记得前面发生的所有步骤和画面,包括自己与对手的。而AI不一样,它可以充分掌握整个赛程中的所有过往事物、人物、任务等多种条件,以及它们之间的关系和所产生的影响,并能够依据记忆,推理出更出奇的招数。因此,运用“运筹帷幄之中,决胜千里之外”这句话来形容AlphaStar在星际争霸2中的表现并不过分。

　　4. 学习能力

　　AlphaStar仅仅运用了14天,就完成了人类需要200年才能完成的对弈次数,并从这种对弈中获取了N种战略经验,且将该经验运用到了与人类的对弈模式当中,并取得了不错的对战结果,这也充分展现了AI的学习能力更强、速度更快。

　　距离“自我成长”,AI还有哪些路要走?

　　我们并没有用“自我学习”这种词来形容AI的成长,而是用“自我成长”来形容它。原因在于AI的发展不仅仅是自我学习的维度,而是更聚焦在AI自我成长层面。在这一层面,AI将自己完成经验积累、学习、进阶,甚至无需更多人类干预即可完成独立的多领域任务计算、执行、输出。

　　但是,AI要走的路还有很长,它缺陷是在某一专属领域很强,然而可拓展性、复制性弱。类比一个简单场景:扑克与麻将的玩法与技巧相近,对于这个结论的判断人类可以轻而易举地达到,因此,人类可以轻松地将玩打扑克的能力与经验迁移到玩麻将中。

　　然而,AI不能。AI很难实现能力与经验的横向迁移,因此,垂直某一领域的AI被安排至其他领域时,需要重新学习该领域知识。人类很容易实现能力和经验的横向迁移,然而AI却不能。这是人工智能领域中很难跨越的瓶颈,它的通用性需要进一步研究。

　　这就是为什么我们认为此次星际争霸2的人机对战,AI只能算在智能化道路上迈出一小步的其中一个原因。

　　另外一个原因,1月25日的人机对战中,AlphaStar战胜的其实还不是的选手。因此,不少人对它的实力还抱有迟疑态度。如果AI要证明它在智能化程度上已经取得了质的突破,还必须要通过更严峻、的比赛。

　　万众瞩目,AlphaStar将战世界第一

　　是的!AlphaStar即将再次验证自己的能力!

　　消息:大约20天之后,也就是2月15日,AlphaStar将挑战WCS星际争霸2全球总Serral,后者代表着目前职业电子竞技赛(星际争霸2项目)的最水平。

　　(2月15日,AlphaStar将挑战星际争霸2全球总Serral)

　　如果AI能在比赛中大比分强势获胜,或许就可以让所有人信服,发展到今天的AI在智能化道路上已经实现了大步迈进。

　　AlphaStar与Serral的对战,孰胜孰负,令人期待!

　　赛事背后的AI能力分析,我们下次继续聊。行文仓促,不周全之处也欢迎共同探讨。

　　智齿AI研究院介绍

　　智齿AI研究院致力于深入研究人工智能前沿技术,并使其赋能到客服领域多场景中,帮助企业完成低成本、高效率、优品质的智能客户服务。智齿AI研究院聚焦于智能客服的AI会话管理、深度学习、口语语义理解等相关方向,目前智齿AI研究院所研究技术均已应用于智齿科技旗下产品线,如智能客服机器人的单轮、多轮会话,智能质检、知识库冷启动等场景,在企业中的服务、营销、服务管理等具体业务中,起到了至关重要的作用。

　　智齿AI研究院院团队:

　　吴科

　　团队首席科学家;

　　原阿里巴巴搜索研发专家;

　　雅虎中国新闻搜索技术负责人;

　　曾获微软亚洲研究院明日之星称号;

　　曾先后师从微软研究院人工智能部门研究经理高剑峰,美国UIC特聘教授,清华大学数据科学研究院院长俞士纶(Philip S. Yu);拥有深度学习译著《人工智能中的深度结构学习》。

　　团队核心成员均拥有10年以上人工智能研究、数据分析、模型调优等经验;

　　其他成员:

　　研究院中人工智能与大数据团队成员均来自于阿里巴巴/雅虎/腾讯/新浪/美团/小i机器人等国内外知名的互联网巨头的专家。

　　研究院团队成员曾参加过众多人工智能相关比赛并均获得前5%的成绩,包括NTCIR-12短文本对话比赛;凤凰金融量化投资比赛;阿里支付风险比赛;Kaggle的House Prices:Advanced Regression Techniques比赛,研究团队毕业于谢菲尔德大学/北京大学/清华大学/北京邮电大学/南京大学等高等院校的博士/硕士;

　　团队核心成员均拥有10年以上人工智能研究、数据分析、模型调优等经验;

　　公司拥有软件著作权及专利共计十余件,团队成员享有专利并发表论文二十余份。