DeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero - 开源中国社区
DeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero
局长 2017年12月08日

DeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero

局长 局长 发布于2017年12月08日 收藏 7

有免费的MySQL,为什么还要买? >>>  

谷歌旗下人工智能公司 DeepMind 一直都热衷于在棋盘上击败所有人类对手。DeepMind 的研究人员本周在预印本网站 arxiv 发表论文(PDF),称他们的 AI 程序从 AlphaGo Zero 进化到了 AlphaZero。

AlphaGo Zero 通过强化学习方法训练花了 40 天时间成为超越人类的最强大围棋选手

这次的新技术 AlphaZero 在学习 8 个小时之后就成功地击败了之前“碾压”人类冠军的 AlphaGo Lee。同时又只用 4 个小时的训练就能击败顶级的国际象棋程序 Stockfish。最后,又经过 2 个小时的训练后击败了日本传统棋类项目的将棋程序 Elmo,三种棋类都已经超越了国际顶级水准。而 AlphaZero 和 AlphaGo Zero 一样,在训练时都只使用 4 个 TPU。

AlphaZero 应用了与 AlphaGo Zero 类似但更通用的算法,它并非专门针对下棋设计,AlphaZero 只掌握最基本的棋类规则,没有专门的策略和战术代码,然后通过名为“强化学习”的训练方法,不断重复训练快速掌握规则,算是之前 AlphaGo Zero 的增强版。

其实这种强化式学习方式本身并不新鲜。今年 10 月创建的 AlphaGo Zero 也使用了同样的方法。但是这次新的 AlphaZero 要比之前更具通用性,因此能够在没有事先准备的情况下应用于更广泛的用途。

值得注意的是,在不到 24 小时的时间里,同一个计算机程序能够通过自我学习的方式实现在三种不同棋类项目同时达到“超越人类”的水平,这是人工智能领域所取得的新成就。

现在 DeepMind 距离公司梦寐以求的通用思维机器目标又近了一步,不过依然面对着非常大的挑战。今年年初,DeepMind 首席执行官 Demis Hassabis 在展示最新成果时表示,虽然该技术未来可能对解决一系列科学问题有所帮助,比如创新设计和药品研发,但是这些用途与棋类游戏相比有本质的区别。团队需要大量的工作来找出如何解决这些问题的方式。

参考:腾讯科技FOSSBYTES

本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
转载请注明:文章转载自 开源中国社区 [http://www.oschina.net]
本文标题:DeepMind 的 AI 从 AlphaGo Zero 进化到 AlphaZero
分享
评论(9)
最新评论
TPU是啥?
0

引用来自“JFinal”的评论

这里有个关键点没说清楚:“AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU”这句是指训练时还是应用时只用 4 个 TPU

引用来自“局长”的评论

是的,感谢指正。已修改~~

引用来自“JFinal”的评论

训练时只使用 4 个 TPU,相当震撼,意味着 AlphaZero 的算法可以普及使用了,4 个 TPU 成本已经相当之低

不过我有点怀疑是 4 个 TPU 用于使用,而不是用于训练。文中提到的 4 个 TPU 训练 8 个小时超越 AlphaGo,这太不可思议了
For training, AlphaZero used a single machine with 4 TPUs. https://fossbytes.com/googles-alphazero-ai-chess-program/
编译的外媒资讯~~
0

引用来自“JFinal”的评论

这里有个关键点没说清楚:“AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU”这句是指训练时还是应用时只用 4 个 TPU

引用来自“局长”的评论

是的,感谢指正。已修改~~
训练时只使用 4 个 TPU,相当震撼,意味着 AlphaZero 的算法可以普及使用了,4 个 TPU 成本已经相当之低

不过我有点怀疑是 4 个 TPU 用于使用,而不是用于训练。文中提到的 4 个 TPU 训练 8 个小时超越 AlphaGo,这太不可思议了
0

引用来自“JFinal”的评论

这里有个关键点没说清楚:“AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU”这句是指训练时还是应用时只用 4 个 TPU
是的,感谢指正。已修改~~
0
这里有个关键点没说清楚:“AlphaZero 和 AlphaGo Zero 一样都只使用 4 个 TPU”这句是指训练时还是应用时只用 4 个 TPU
0

引用来自“zhaojinhai”的评论

等进化到Alpha100将引发天网
天网真的可能出现
0

引用来自“000JC嚓”的评论

希望有生之年能看到Google毁灭地球:joy:
毁灭地球不用,毁灭人类就行了!
0
等进化到Alpha100将引发天网
0
希望有生之年能看到Google毁灭地球:joy:
顶部