阿尔法狗的故事

围棋机器人——AlphaGo

AlphaGo其实是有两个“大脑”组成的,也就是两套完整的深度学习网络来进行配合计算的。

第一大脑:落子选择器(move picker)。

AlphaGo的第一个神经网络大脑是“监督学习的策略网络”,观察棋盘布局企图找到最佳的下一步。事实上,它所基于的理论仍旧是遍历一棵树。它预测每一个符合规则的下一步的最佳概率,或者说是每一步落子后获胜的概率,然后选择其中一个获胜概率最高的位置落子。这可以理解成落子选择器。

图片发自简书App

第二大脑:棋局评估器(position evaluator)。

AlphaGo的第二个大脑棋局评估器是在做另外一件事情。它可以用来评价一个盘面的好坏程度,所以这种所谓的棋局评估器就是价值网络,通过整体局面判断来辅助落子选择器。这个判断仅仅是个大概的价值评估,但对于盘面的阅读速度提高很有帮助。通过分析潜在的未来局面的“好”与“坏”,AlphaGo能够决定是否通过特殊变种去深入阅读,也就是多看几步棋。如果棋局评估器说这个特殊盘面的变种不行,那么AI就跳过阅读在这一条线上的任何更多落子,从而加快盘面阅读的速度。

图片发自简书App
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容