他的猜想,直到AlphaGo。
他敢肯定,AlphaGo的计算方式产生了相当大的变化!AlphaGo不是以计算机的惯性在运行,它完全是人脑的思维方式!
“他们在蒙特卡洛树搜索上加装了什么?”谢榆一目十行地扫过屏幕上的代码。
蒙特卡洛树搜索,是围棋AI的基本解决框架。围棋AI每一步都选择若干种落子,然后在电脑中模拟到终局,进行数子,最终选择胜率最高的那一步棋。因为计算量太大,AI只能给出一个近似最优解,并非全枚举,在AlphaGo之前AI因此也只能达到业余五级的水准。
这依旧是一个计算的范畴,而职业棋士很多时候并不是单靠计算做出判断,像之前所说的全局观念,就是蒙特卡洛树搜索无法解决的问题。要让AI发挥出人脑的效果,到底靠的什么?
当天晚上,谢榆从美国的某个计算机大牛那里,获知了他想要的答案。
AlphaGo团队在蒙特卡洛树搜索上加装了策略网络和价值网络两个模块。
这两个模块让AlphaGo不是单纯地计算,而是深度学习、模仿人类!
策略网络,顾名思义是决策下一步走子。AlphaGo会检索KCS围棋服务器上所有真人在线对弈,进而判断:如果是人类棋手处于它当前的位置,他最有可能走哪一步?它只对那些解进行计算!然后,它就自我对弈上千万局,看看这一步是否真的是最优解!
本章还未完,请点击下一页继续阅读>>>