阿尔法狗的故事

围棋机器人——AlphaGo

AlphaGo其实是有两个“大脑”组成的，也就是两套完整的深度学习网络来进行配合计算的。

第一大脑：落子选择器（move picker）。

AlphaGo的第一个神经网络大脑是“监督学习的策略网络”，观察棋盘布局企图找到最佳的下一步。事实上，它所基于的理论仍旧是遍历一棵树。它预测每一个符合规则的下一步的最佳概率，或者说是每一步落子后获胜的概率，然后选择其中一个获胜概率最高的位置落子。这可以理解成落子选择器。

图片发自简书App

第二大脑：棋局评估器（position evaluator）。

AlphaGo的第二个大脑棋局评估器是在做另外一件事情。它可以用来评价一个盘面的好坏程度，所以这种所谓的棋局评估器就是价值网络，通过整体局面判断来辅助落子选择器。这个判断仅仅是个大概的价值评估，但对于盘面的阅读速度提高很有帮助。通过分析潜在的未来局面的“好”与“坏”，AlphaGo能够决定是否通过特殊变种去深入阅读，也就是多看几步棋。如果棋局评估器说这个特殊盘面的变种不行，那么AI就跳过阅读在这一条线上的任何更多落子，从而加快盘面阅读的速度。

图片发自简书App

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

阿尔法狗的故事

推荐阅读更多精彩内容