谷歌旗下人工智能公司 DeepMind 一直都热衷于在棋盘上击败所有人类对手。DeepMind 的研究人员本周在预印本网站 arxiv 发表论文(PDF),称他们的 AI 程序从 AlphaGo Zero 进化到了 AlphaZero。
AlphaGo Zero 通过强化学习方法训练花了 40 天时间成为超越人类的最强大围棋选手。
这次的新技术 AlphaZero 在学习 8 个小时之后就成功地击败了之前“碾压”人类冠军的 AlphaGo Lee。同时又只用 4 个小时的训练就能击败顶级的国际象棋程序 Stockfish。最后,又经过 2 个小时的训练后击败了日本传统棋类项目的将棋程序 Elmo,三种棋类都已经超越了国际顶级水准。而 AlphaZero 和 AlphaGo Zero 一样,在训练时都只使用 4 个 TPU。
AlphaZero 应用了与 AlphaGo Zero 类似但更通用的算法,它并非专门针对下棋设计,AlphaZero 只掌握最基本的棋类规则,没有专门的策略和战术代码,然后通过名为“强化学习”的训练方法,不断重复训练快速掌握规则,算是之前 AlphaGo Zero 的增强版。
其实这种强化式学习方式本身并不新鲜。今年 10 月创建的 AlphaGo Zero 也使用了同样的方法。但是这次新的 AlphaZero 要比之前更具通用性,因此能够在没有事先准备的情况下应用于更广泛的用途。
值得注意的是,在不到 24 小时的时间里,同一个计算机程序能够通过自我学习的方式实现在三种不同棋类项目同时达到“超越人类”的水平,这是人工智能领域所取得的新成就。
现在 DeepMind 距离公司梦寐以求的通用思维机器目标又近了一步,不过依然面对着非常大的挑战。今年年初,DeepMind 首席执行官 Demis Hassabis 在展示最新成果时表示,虽然该技术未来可能对解决一系列科学问题有所帮助,比如创新设计和药品研发,但是这些用途与棋类游戏相比有本质的区别。团队需要大量的工作来找出如何解决这些问题的方式。
引用来自“JFinal”的评论
这里有个关键点没说清楚:“AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU”这句是指训练时还是应用时只用 4 个 TPU引用来自“局长”的评论
是的,感谢指正。已修改~~引用来自“JFinal”的评论
训练时只使用 4 个 TPU,相当震撼,意味着 AlphaZero 的算法可以普及使用了,4 个 TPU 成本已经相当之低不过我有点怀疑是 4 个 TPU 用于使用,而不是用于训练。文中提到的 4 个 TPU 训练 8 个小时超越 AlphaGo,这太不可思议了
编译的外媒资讯~~
引用来自“JFinal”的评论
这里有个关键点没说清楚:“AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU”这句是指训练时还是应用时只用 4 个 TPU引用来自“局长”的评论
是的,感谢指正。已修改~~不过我有点怀疑是 4 个 TPU 用于使用,而不是用于训练。文中提到的 4 个 TPU 训练 8 个小时超越 AlphaGo,这太不可思议了
引用来自“JFinal”的评论
这里有个关键点没说清楚:“AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU”这句是指训练时还是应用时只用 4 个 TPU