小朋友都能懂的人工智能⓸ -狗大师的修仙之路（下）-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_39534833/article/details/147056702

梁敬彬梁敬弘兄弟出品

13 棋局与图片，特征与权重

L：一眼识别出棋局好坏的能力在AlphaGo这里对应的就是价值网络，而一眼看出局面大致应对方法的能力则对应策略网络。对了，大家是不是觉得有些耳熟。

A：是啊，您之前问我观战爸爸对局时做什么时，也提到过。

L：嗯，很棒！狗大师成功的秘密就在这两张网络上，大家还记得我在讲述卷积神经网络时提到的图像识别吗，包括识别猫，识别X图形等。

A爸：记得，其中用卷积核进行特征值提取的数学应用，给我留下了很深的印象。当时我还有一个问题没搞明白，卷积神经网络主要用在图像识别等场景，这和AlphaGo提升棋力有啥关系。

L：其实还是比较好理解的。一个能识别猫的卷积神经网络可以识别出各种各样的猫，那如果你把围棋的每个局面当成一个图片，是不是也就认识各种局面了。

A爸：对啊，我怎么就没想到。

L：卷积神经网络经过无数的训练，比如通过识别大量的猫图片，了解了猫的特征。比如其整体轮廓，尖尖的耳朵，有绒绒的毛，有长长的尾巴…最后终于形成了对猫的认识。同样，通过学习大量的人类高手棋谱及自我对弈产生的棋谱后，AlpahaGo就对各种各样的局面进行了分类总结，可以类比为识别出什么样的棋型是死棋，什么样的棋型是活棋，什么样的棋型是危险的，什么样的棋型是安全的，什么样的棋型是厚的，什么样的棋型是薄的…好比了解了这是猫，这是狗，这是猪，这是牛…这是非常重要的一步。

随着训练量不断增大，分类总结就越来越细致和准确。这和卷积神经网络识别世界万物一样，AlphaGo通过卷积神经网络认识了围棋世界的万物，也就是说他提取出了各种棋型的特征，识别了围棋世界的各种棋型。棋局即图片，和识猫本质相同。当然了，这里说的死棋活棋危险安全厚薄都是便于举例所做的类比，在机器的世界里自有他自己的特征，并非我们人类所能理解的。

在这里插入图片描述

A：L老师，千古无同局，围棋的棋型有数不清楚，这怎么统计的过来呢？

L：这世上不可能有两只一模一样的猫，可以说千古无同猫，但这丝毫不影响AI准确的识别出猫。卷积神经网络识别猫的过程实际上是收集猫的各个不同的特征与权重，合在一起打一个分数，最后根据打分结果来实现猫的判断。这里有一个非常重要的概念，叫权重。可以这样定义，权重是一种分配给一个元素或变量的相对重要性或影响力的度量。爸爸妈妈们应该都能理解，小朋友们你们知道是什么意思吗？

小朋友们纷纷摇头。

L：其实说起来很简单，比如对于识别一只猫来说，颜色是猫的特征之一，但是用颜色对识别是不是猫的贡献很小，因为黑猫白猫都是猫，所以颜色的权重就非常低。假如尖尖的耳朵对识别猫的贡献是比较大的，这个特征的权重就会很高。在识别猫的过程中，机器会用自己的方式来收集各种猫的特征，并为这些特征设置权重。

在这里插入图片描述

A爸：那机器如何设置各个初始权重，又如何调整呢？

L：问的好！机器学习是一个动态的过程，开始的特征收集和权重设置都比较随机，不过别忘了卷积神经网络是有反馈机制的，并且可以根据反馈进行自我调节的。故事上演了，在无数次认错猫后，机器会捂着被扇红的脸在想，这猫的颜色特征好像作用不大啊，嗯，得调低权重。不久后又觉得，不对，这颜色特征感觉压根儿没用，坑啊，甭提权重了，把它开了吧。再到后来它又有新发现，哇，这个耳朵特征好像是识猫好宝贝，咱一定要重视起来，权重得高…

就这样，通过不断调整权重等参数，反复尝试，这台机器变聪明了，成为了识猫专家，具体流程如下图所示。

在这里插入图片描述

A：老师我明白了，围棋虽然千古无同局，但是依然可以分类总结各种类型的棋型，机器是提取特征而不是保存画面。

L：说的很好！围棋和识别猫基本上是没有差别的，同样是一个动态调整优化参数，实力持续增强的过程，差别在于围棋AI可以通过模拟和实际下棋的输赢结果来做反馈，而识别猫则需要人工来反馈。具体流程如下图所示。

在这里插入图片描述

A爸：L老师，你这流程图还真清晰，我算是彻底明白了。

L：A爸，你明白了，可我却完全不明白哦。

A爸：啥？

L：围棋的各局面及对应的提取的特征及权重，都不是我们人类所能理解的，但是却很好的完成了任务。这种黑盒子般的机制也导致部分科学家有些担忧，担心技术上失控。

A爸：那L老师您担心吗？

L：相比技术上失控，我更关注普通人如何与人工智能相互协作，而不至于被这个时代淘汰，协作真的很重要，狗大师为什么这么厉害，也是取决于其内部几个关键技术的完美协作。

14 完美协作成就修仙之路

L：大家知道，早先的围棋程序主要是依据蒙特卡洛方法实现，这种遍历算法受限棋盘太大，始终无法战胜人类职业高手。不过蒙特卡洛方法其实并非实力不济，而是缺少一个好拍档。

很快，一位名叫深度学习(卷积神经网络)的大神来了。只见他手持价值网络和策略网络两大神器，激动的和蒙特卡洛树搜索紧紧拥抱在一起，开启了完美协作。然后，狗大师一下子变强了。

在这里插入图片描述

A爸：哇，具体如何协作的？

L：想象一下，蒙特卡洛树搜索就像是一个探索者，它在棋盘上寻找可能的路径。但在无尽的可能性中，它需要指引。这时，策略网络就像是一盏明灯，为蒙特卡洛树搜索指明方向，告诉它哪些路径值得探索。而价值网络则像是一个智者，它评估这些路径的价值，告诉蒙特卡洛树搜索，哪些路径可能引领至胜利。
通过这样的结合，AlphaGo能够在众多可能中，高效地找到最有价值的路径。策略网络缩小了搜索范围，使得蒙特卡洛树搜索不再盲目探索；而价值网络则提供了对每个局面胜负的快速准确预测，这使得每一步决策都建立在坚实的基础上。

其实这种结合其实很好理解，就是棋感和计算相的结合。关键是，棋感的提升是可以通过不断的迭代中，反复提升的。狗大师落子的具体流程如下图所示。

在这里插入图片描述

A爸：明白了，这样的配合确实大幅裁减了不必要的搜索，太巧妙了。

L：AlphaGo确实设计的非常巧妙，也取得了非常大的突破，Google公司确实非常了不起，我们之前提到了AlphaGo、AlphaGo Zero、AlphaZero、MuZero外，继续不断前行，推出了研究蛋白质折叠预测的AlphaFold，为人工智能技术在生物学和相关领域的应用将打开新的研究方向。在2024年1月，Google又新的面向数学几何领域的模型 Alpha Geometry，数学几何能力已达到人类奥林匹克金牌选手的水平。
小朋友们听得直咂舌，直呼不可思议。

L：大家发现没，这些天我们提到的人工智能应用都是锁定了一个特定的领域，比如人脸识别、下棋、打游戏、研究蛋白质、数学…也就是说，还不够通用。大家知道我接下来要提的是哪款人工智能产品。

众人几乎异口同声：Chatgpt。

L：是的，OpenAI公司推出的通用大语言模型Chatgpt无论是实现复杂度还是资金投入，都远超Google的Alpha系列，这是一个更为颠覆的产品，对社会产生了深远的影响，和每个人的命运都息息相关。大家是非常有必要去了解其实现的原理与机制，并学会与之高效合作。

A爸：Chatgpt的原理有什么特别之处吗，我觉得不就是将大量人类知识投喂给Chatgpt，当人们和他交流时，他从数据库里调出知识与你问答，我其实也不觉得有多颠覆啊。

L：A爸说的既对，又不对。我们不能简单的把大语言模型和数据库画一个等号，这里细节我们后续展开。我问大家一个问题，我们让Chatgpt写一首李白的静夜思，他写的出来吗？

众人纷纷认为可以。

L：回答正确！不过，如果我告诉大家，Chatgpt的数据库里根本就没有保存这首诗，也没有上网去搜索，就能为你一字不差写出静夜思，你们信吗？

A爸：这怎么可能，难道他能自己创造出李白的诗，还一字不差？

L：A爸，还真被你说对了，静夜思还真是Chatgpt创造出来的，具体是这样的。你让我写一首李白的静夜思，我该怎么写呢？让我好好想想，我怎么觉得第一个字应该是床，下一个是啥，应该是前吧…然后写出了床前明月光，疑是地上霜。举头望明月，低头思故乡。

在这里插入图片描述