带你了解AI大模型的前世今生

AI大模型发展、应用与学习资源分享

原创已于 2024-10-26 13:43:46 修改 · 438 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#1024程序员节 #人工智能 #大语言模型 #LLM #ai大模型 #大模型应用 #大模型开发

于 2024-10-24 11:10:23 首次发布

过去，开发者用代码来改变世界，未来，自然语言将成为通用的编程语言。大模型是如何成功的？有哪些应用？现在如何入局？一个全知全能的大模型能适配一切吗？在这个 AI 时代，什么样的工具才能被称为最好用的工具？这些问题，是身处技术浪潮中的我们所关心的现实问题。

从机器学习到深度学习的飞跃

人工智能其实是一个非常广泛的概念，指的是能够模仿人类行为的一种计算机程序，我们现在所看到的人工智能，只是其中的一个子集，称为“机器学习”，实际上就是我们的一个计算机程序或是软件，能够基于现有数据的持续学习，做出预测和自主调整。我们现在常用的很多社交软件，如抖音、小红书，它们的推送算法都是我们可以接触到的机器学习人工智能。

机器学习的广泛应用，为企业的生产经营带来了很大的变化。以物流行业为例，如果要投递120个包裹，应该如何设计路线？就算不考虑其他因素，派发120个包裹的可能路线数量也将是个天文数字。机器学习的出现，可以通过对历史记录的分析和学习，对数据的不确定性进行建模，做出预测或决策，并根据情况变化自主进行调整。按照机器学习推荐的线路，派送120个包裹的里程仅为104英里，比司机自行决策的路线134英里节省了30%的路程。有知名物流企业在2003年就应用了这套系统进行数字化转型，通过机器学习的人工智能，企业每年节省3-4亿美元的成本，这是人工智能为企业运营带来降本增效的一个非常直观的体验。

时至今日，这套算法已经非常成熟了，它不仅应用于与路径规划相关的各类企业，包括外卖、餐饮、快递、网约车，我们生活中所有的平台化商业模式，实际上都是通过高效的算法撮合，进行需求和供给的匹配。

但是以机器学习为主的人工智能，它最大的局限是需要依赖于结构化的数据，即数字。但我们的大千世界并不仅仅是由结构化数据组成，图片、语音、甚至味觉、嗅觉，如何从这些更为丰富的信息种类，形成人工智能的理解，就变成了一个挑战。这也就在机器学习中诞生了一个更为细化的子集，深度学习。

深度学习的诞生与发展

1989年，法国计算机科学科学家杨立昆(Yann LeCun)开发出世界上首个深度学习技术——卷积神经网络算法LeNet。直到现在，这项卷积神经网络深度学习技术仍然是我们AI大模型的理论基础。但其实，这项技术直到1998年，才有了第一个成功的商业化应用，且仅仅应用于识别支票上的数字。为什么当时它并没有引起关注呢？每一项技术的商业化成功需要一系列的配套。在人工智能领域最基本的三要素有：算法、算力和数据，技术性能就是算法，配套资产就是算力和数据。而之所以卷积神经网络未能普及，就是因为算力和数据在当时相当匮乏。

在这里插入图片描述

（右为杨立昆）

直到2006年，当时的科学家已经意识到，要发展大模型，计算机算力需要突破，且不能再单纯依靠主流的CPU计算芯片，英伟达敏锐地发现了这一趋势，推出了可编程可拓展的GPU，这让算力开始有所突破。但缺乏训练数据仍然是人工智能发展最大的瓶颈。华裔计算机科学家李飞飞同样关注到了这个问题，她认为，深度学习只有算法和算力，没有数据，就好比巧妇难为无米之炊。因此，她提出建立一个10亿张图片的数据库ImageNet。起初，受限于当时的技术条件及庞大的工作量，这个想法无异于天方夜谭。但她通过和亚马逊的众包平台合作，在网上雇佣到了来自167个国家的5万人，为这10亿张备选图片筛选、排序、打标签。到2009年，ImageNet数据库就包含了1500万张标注好的照片，涵盖了20000多种物品。ImageNet数据库无论在质量还是数量上，在科学界都是空前的。最重要的是，李飞飞把ImageNet这个如此庞大的图片数据库免费开放使用。这就意味着，全球所有致力于计算机视觉识别的团队，都能从这个题库里面提取数据和试题，来训练测试自家算法的准确率，直到今天，ImageNet仍是全球AI产学界较为知名的大型视觉数据库之一。

不仅如此，从2010年开始，ImageNet还举办了视觉识别比赛，其中，2012年比赛的冠军AlexNet在图片识别上达到了极高的成功率，真正为深度学习技术带来了巨大的突破，成为当代卷积神经网络算法的鼻祖。**一旦技术路径确定、配套资产成熟，技术就会有突飞猛进的发展，距离商业化成功也就更近一步。**在今天，无论是零售业门店客流分析、仓库监测等视觉识别场景，抑或是物流企业包裹和违规操作的自助监测等依靠的仍然是这种视觉识别技术。

在这里插入图片描述

总而言之，ImageNet对于深度学习的意义除了让卷积神经网络成为当代AI的奠基性技术，带来视觉识别的应用发展，也促使了数据标识产业的诞生，催生了一系列的技术创新与独角兽企业。所以不难看出，深度学习技术最后的成功，来自于数据的突破。可以说，深度学习的人工智能，始于算法，兴于算力，成于数据。

当机器开始“思考”：从AlphaGO到AlphaFold

在这里插入图片描述

（某企业2012年7月的网站截图）

一家看上去不甚靠谱的人工智能初创公司，仅有的一页网站上没有产品，没有商业计划，登录页面将其业务描述为模拟、电子商务和游戏构建学习算法，主页上只有创始团队的联系方式，而其主要的创始人，仅仅是一个刚刚毕业且没有计算机背景的神经科学博士。如果你是一位投资者，会在2010年或2014年投这样一家海外的AI企业吗？

单凭这些信息，不少人会对这家企业嗤之以鼻，但事实上，这家企业便是日后在AI领域鼎鼎有名的DeepMind。2011年，马斯克在英国以天使投资人的身份投资了该企业，在他的撮合下，谷歌于2014年以6.6亿美元收购DeepMind，而当时的DeepMind只有12个员工，还没有赚钱，只是在用深度学习玩游戏和下棋。两年后（2016年），DeepMind便推出了以4:1的成绩打败世界顶级围棋选手李世石的人工智能算法AlphaGo。马斯克之后颇为自豪地说，AlphaGo的压倒性胜利是跨时代的，而赛前人们普遍预测，人工智能距离顶级围棋选手至少还有5至10年的距离。

在这里插入图片描述

2018年，基于AlphaGo的AlphaFold开始应用在蛋白质结构解析领域。在其后的两年，AlphaFold就完成了58%的人类蛋白质结构预测，这样的速度和规模无疑是惊人的，因为在之前的五十年中，生物学家用实验的方法仅解析出17%的人类蛋白质结构，使用的冷冻电镜成本还十分高昂，每台设备的价格在600万美元左右。今天，AlphaFold 已经预测了超100万个物种，超过2.14亿个蛋白质结构，几乎覆盖了地球上所有的已知蛋白质。而它的解析成本，大概是一辆丰田凯美瑞的价钱。

深度学习中的注意力机制

我们所说的大模型，是指大语言模型。事实上，卷积神经网络深度学习是没有办法处理语言的，语言不仅是我们对于客观现实的反射，更是人类自主意识的表达，这里面有高度的不确定性。而我们对于语言的理解，很多时候需要情境。特别是在中文的语境中，比如“能穿多少穿多少”这句话在冬天和夏天就是完全不一样的理解，再比如，“中国谁也赢不了”，这句话在足球和乒乓球领域，又是完全不一样的理解。

如何让自然语言处理变得更“聪明”？在某种程度上，这和企业管理有着异曲同工之妙。企业中最稀缺的是什么？是领导者的注意力。1998年，奥卡西奥的一篇文章《企业的注意力机制》提出，公司行为是决策者注意力分配的结果，决策者做什么取决于他们当下所关注的问题和答案。无独有偶，20年后，谷歌团队发表的一篇文章，《注意力就是你所需要的》也成为了现在ChatGPT和所有大模型的关键底层技术。这两篇文章都不约而同地提到了“注意力”，大语言模型通过注意力机制，捕捉到文章的重点、关键词，对重点的关键词进行联想，进行最大概率的填空。从结构性数据到非结构性数据，从一般的图片图像再到我们最难以理解的人类自然语言，技术就这样一步步地突破。

在这里插入图片描述

注意力机制的提出，让人工智能具有了识别和输出自然语言的能力，消除了中英文自然语言处理差异，也消除了图像、文本、视频、代码等数据性质的差别，无需数据标记让计算效率大幅提高，也成为了暴力运算的算法基础。但它也存在一定的局限，计算机语言分为两种，一种是形式语言能力，另一种是功能语言能力。形式语言能力指的是我们平时语言中的字面意义，功能语言能力则是我们所想表达的思想，需要对语义进行理解而不仅是单纯的关联。大模型对语言的理解仅存在于形式语言能力的层面，因此，大模型是否能取代人的工作？其实很多时候还是不行的。就目前来说，大模型可以适用于合规或现有惯例的表达和传递，比如年初爆火的Sora，就是按照规则规律，去执行生成视频的操作；近年发展迅猛的机器人产业，就是通过大模型，将自然语言翻译为驱动机器人的程序指令。

最后，在生成式AI下中国企业有哪些机遇呢？大致有四个方面，首先是芯片上游的辅助产品，比如解决GPU能耗问题，液冷风冷技术等；其次是研发可以替代GPU的AI芯片技术，比如ASIC和FPGA，但这需要大量的前期投入，且需要绑定特定的大模型算法；第三，注意力机制的互补技术，这同样需要非常强的科研基础，投资和退出路径规划；最后，可以开发下游降本增效的短平快应用，替代人力。人工智能的真正潜力，可能在现在还无法真正的预估。AI原生辅助技术和配套资产的开发，在将来具有更广阔的价值创造潜力。