如何最简单、通俗地理解AI大模型？

原创已于 2024-10-07 11:06:10 修改 · 1.3k 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #数据挖掘 #计算机视觉 #机器学习 #目标检测 #gpt-3 #chatgpt

于 2024-09-05 12:01:18 首次发布

部署运行你感兴趣的模型镜像

大模型之所以可以得到“大”这样一个看起来很霸气的定语，主要是因为与之前那些神经网络模型相比，大模型有两“大”：一是训练数据“大”，二是模型本身“大”。

大模型的训练数据量是非常惊人的，仅以GPT-3为例，它的训练数据包含了大约4990亿个tokens，相当于数千亿个单词。

这个数字可能很难直观理解，我们做个简单的比较：如果一个人阅读速度很快，每天可以读10万字，每年365天不眠不休的读书，要读完GPT-3的训练数据量大约需要10000年。
在这里插入图片描述

这样庞大的数据量，自然可以涉及到人类知识的方方面面，从日常对话到专业文献，从新闻报道到文学作品，几乎涵盖了人类语言的所有范畴。

正是这种全面深入的“阅读”和“记忆”，让大模型得以构建起一个庞大而复杂的知识网络，让它能够理解和生成各种类型的文本，回答各种领域的问题。

比如，当我们问大模型“光合作用是什么？”时，它不仅能给出准确的科学解释，还能联系到植物生长、生态系统等相关知识；当我们要求它写一首关于春天的诗时，它能立刻切换到文学创作的模式，运用丰富的意象和修辞手法。

其实也不必羡慕大模型的“满腹经纶”，我们脑子里要是有这么多资料，也能轻轻松松的成为跨领域专家，下笔如有神……

不过大模型毕竟不是人，它要真正“学习”到这些海量的资料，就涉及到第二“大”：模型本身的规模。

大模型的参数数量是非常惊人的，仍然以GPT-3为例，它拥有1750亿个参数，曾经雄霸一时。

这些参数可以理解为模型的“大脑神经元”，每个参数都存储了模型学习到的一小部分知识。参数数量越多，模型就越能够捕捉和表达复杂的语言模式和知识关系。这也正是现如今的大模型越来越大、越来越大的主要原因，据估计，GPT-4的参数量将近1.8T。

为了更形象的理解这些数字，我们可以把它们和人脑做个类比：人脑大约有860亿个神经元，而GPT-3的参数数量是这个数字的两倍还多。

当然这种比较并不完全恰当，因为人脑神经元的复杂度远高于模型参数，但是这样一类比，却能让我们实实在在感受到大模型规模的宏大。

正是这个庞大的参数网络使得大模型能够进行极其复杂的信息处理和推理，比如当我们要求模型解释一个复杂的科学概念时，它能够从多个角度进行阐述，并根据上下文调整解释的深度和方式；当我们要求它分析一篇文学作品时，它能够从作品的主题、风格、人物刻画等多个层面进行“解析”。

正因如此，大模型们才能在今年的高考季成为“AI考生”，不仅完成了答卷，还取得了颇为不错的成绩。讲真，它对现代文阅读以及诗词的赏析水平，是我们很多人都望尘莫及的。

请添加图片描述

标准答案：
请添加图片描述

显然，知识如此“渊博”的大模型，可以做的事情绝不仅仅是完成一套高考试卷，博大家一笑。只要善加利用，它完全可以变身成为一个个实用小程序。帮我们分析数据，做出漂亮简洁的图表；帮我们完成每天差异不大，却每天都要写的日报；帮我们给繁杂的操作打个壳，让各种操作更加简单明了；甚至帮我们做出一个网页，并且部署在公司的服务器上……

要深入理解大模型的工作原理，我们需要从它处理输入开始，逐步分析整个过程。

当我们向大模型输入一个句子时，比如“The quick brown fox jumps over the lazy dog”，我们的脑子里自然会出现这样一副画面：

请添加图片描述
但是大模型为了“理解”这个句子，首先要将这个句子拆分成更小的单位，我们称之为“tokens”。

在英语中，token通常是单词或单词的一部分。对于这个句子来说，它可能会被分解成[“The”, “quick”, “brown”, “fox”, “jumps”, “over”, “the”, “lazy”, “dog”, “.”]。

而对于中文，分词可能会更复杂一些，因为中文词语之间没有明显的空格分隔。例如，“今天天气真好”这句话可能会被分解成[“今天”, “天气”, “真”, “好”]。大模型需要学会正确识别词语的边界，这是它理解语言的基础。

在完成分词后，大模型会开始分析这些tokens之间的关系。这个过程使用了一种叫做“注意力机制”的技术，我们可以把它理解为模型在“阅读”句子时，会特别“关注”某些词。比如在“The quick brown fox jumps over the lazy dog”这个句子中，“fox”、“jumps”和“dog”可能会得到更多的“注意”，因为它们“携带”了句子的主要信息。这种注意力机制使得模型能够更好的理解句子的含义，明白这个句子描述的是一只狐狸在跳跃，而不是一只狗在跳跃。

在理解了输入的内容之后，大模型就可以开始生成文本了。假设我们要求模型续写“The quick brown fox”，它可能会生成“jumps over the lazy dog”，因为这是一个常见的英语绕口令，模型在训练过程中可能多次遇到过。但如果我们要求它以更创新的方式续写，比如“The quick brown fox opened its laptop and”，模型可能会生成“开始编写代码”或“看着今天的热点新闻”这样的内容。

这也就表示，通过“学习”，大模型不仅能重复它学过的内容，还能创造性地组合信息，生成新颖而合理的句子。

大模型不仅仅是一个庞大的信息储存库，更是一个能够理解、联想和创新的智能系统。这些强大的能力让大模型在各种领域都有着广泛的应用前景，从智能助手，到专业领域的辅助工具，大模型的未来无可限量。无论你是技术爱好者、专业人士，还是普通用户，了解和掌握大模型都将成为未来不可或缺的技能。

您可能感兴趣的与本文相关的镜像