598.请你做一个不讲武德的大师(第10章)(1 / 2)
在此前的版本中,博米围棋大师用到了“策略网络”来选择下一步棋的走法,以及使用“价值网络”来预测每一步棋后旳赢家。而在新的版本中,这两个神经网络合二为一,从而让它能得到更高效的训练和评估。
博米围棋ai并不使用快速、随机的走子方法。在此前的版本中,博米围棋大师用的是快速走子方法,来预测哪个玩家会从当前的局面中赢得比赛。
相反,新版本依靠地是其高质量的神经网络来评估下棋的局势。
现在“博米围棋大师是通过两个不同神经网络“大脑”合作来改进下棋。
这些“大脑”是多层神经网络,跟那些图片搜索引擎识别图片在结构上是相似的。
刘光然和曹阳站在观察房里面看着对面的棋手们正在陷入痛苦的挣扎之中,在小黑屋里面,摆放着许多的显示器,上面正在演示着棋手和电脑的对弈局面。
曹阳看了一眼,表示自己看不明白,反正最后只要能看得出谁输谁赢就可以了。
“我们最开始的围棋ai算法,就是从神经网络和深度学习入手,然后通过往数据库当中输入大量的对弈局势,之后从这些对局当中进行学习,来找到更加适合的方法。”刘光然对曹阳说,“当时的这一套方案还是取得了不错的成绩的,至少能够下过一些职业二段和三段的选手。”
在做这个课题之前,其实刘光然自己也不下围棋,但是做完这个课题之后,刘光然不仅仅是一个ai专家,棋艺也是进步神速。
之前得到不少专业棋手的指导,甚至还拜过一个5段的职业选手为师。
后来刘光然发现,自己无论如何也下不过自己开发的ai的时候,他就陷入了深深的绝望之中,最近这段时间刘光然之所以这么快活,是因为他已经完全放弃了想要成为一名【围棋高手】的想法。
原来刘光然在大学时代还是金庸武侠迷,特别是喜欢里面的珍珑棋局,现在觉得——
这一切都是他特么的瞎扯淡。
如果在这个世界上真的有什么能够超越人类的极限的话,刘光然丝毫不会怀疑,那就是人工智能。
从某种意义上来说,刘光然是幸福的。
因为他可以专注地做自己擅长的事情,而不用把时间浪费在不必要的遐想上面,明白了自己下围棋不可能超过电脑之后,反而整个内心都纯净了。
“而现在的博米围棋大师已经是摈弃了人类棋谱,只靠深度学习的方式成长起来挑战围棋的极限。”
“哎!?”
曹老板惊讶地回过头来,难以置信地看着刘光然。
这是个什么鬼啊?!
也就是说,你现在已经没有让它学习棋谱了?
那它怎么战胜那些职业棋手啊?!
我特么还想要让我们的围棋大师好好地战一战世界冠军,一战立威来着。
刘光然耐心地解释到,“我之前不是说了吗?我们改进的新方案,是让博米围棋大师有两个大脑。
它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。
第一大脑:落子选择器
博米围棋大师的第一个神经网络大脑是“监督学习的策略网络”,观察棋盘布局企图找到最佳的下一步。
事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。
第二大脑叫做,棋局评估器。博米围棋大师的第二个大脑相对于落子选择器是回答另一个问题,它不是去猜测具体下一步,而是在给定棋子位置情况下,预测每一个棋手赢棋的概率。
这“局面评估器”就是“价值网络”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。
通过分析归类潜在的未来局面的“好”与“坏”,博米围棋大师能够决定是否通过特殊变种去深入阅读。
如果局面评估器说这个特殊变种不行,那么ai就跳过阅读。
这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。
博米围棋大师为了应对围棋的复杂性,结合了监督学习和强化学习的优势。
它通过训练形成一个策略网络,将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。
然后,训练出一个价值网络对自我对弈进行预测,以-1(对手的绝对胜利)到1(博米围棋大师的绝对胜利)的标准,预测所有可行落子位置的结果。
这两个网络自身都十分强大,而博米围棋大师将这两种网络整合进基于概率的蒙特卡罗树搜索中,实现了它真正的优势。
新版的博米围棋大师产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。
在获取棋局信息后,博米围棋大师会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。
在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为博米围棋大师的最终选择。
↑返回顶部↑