alphago-zero

首页 > 强化学习 > 正文

标签：alphago zero

2017-10-19

背景
论文地址

参考【21天完虐Master】AlphaGo Zero横空出世，DeepMind Nature论文解密不使用人类知识掌握围棋

今日Nature: 人工智能从0到1, 无师自通完爆阿法狗100-0 | 深度解析

AlphaGo Zero 没有告诉你的秘密

背景

人工智能长期以来的一个目标是创造一个能够在具有挑战性的领域，以超越人类的精通程度学习的算法，“tabula rasa”（译注：一种认知论观念，认为指个体在没有先天精神内容的情况下诞生，所有的知识都来自于后天的经验或感知）。此前，AlphaGo成为首个在围棋中战胜人类世界冠军的系统。AlphaGo的那些神经网络使用人类专家下棋的数据进行监督学习训练，同时也通过自我对弈进行强化学习。

在这里，我们介绍一种仅基于强化学习的算法，不使用人类的数据、指导或规则以外的领域知识。AlphaGo成了自己的老师。我们训练了一个神经网络来预测AlphaGo自己的落子选择和AlphaGo自我对弈的赢家。这种神经网络提高了树搜索的强度，使落子质量更高，自我对弈迭代更强。从“tabula rasa”开始，我们的新系统AlphaGo Zero实现了超人的表现，以100：0的成绩击败了此前发表的AlphaGo。

论文地址

Mastering the Game of Go without Human Knowledge

原创文章，转载请注明出处！
本文链接：http://daiwk.github.io/posts/rl-alphago-zero.html

上篇： horovod

下篇： nmt

comment here..

alphago-zero

背景

论文地址

栏目分类

最新文章