大型语言模型的工作原理

得益于大型语言模型(简称 LLM),人工智能现在吸引了几乎所有人的注意力。ChatGPT 可能是最著名的 LLM,由于自然语言是一种非常自然的界面,它使得人工智能领域最近的突破变得人人皆可访问,因此它的受欢迎程度迅速飙升。然而,除非您是数据科学家或从事其他与 AI 相关的工作,否则 LLM 的工作原理仍然不太为人所知。在本文中,我将尝试改变这种状况。

不可否认,这是一个雄心勃勃的目标。毕竟,我们今天拥有的强大的大型语言模型是数十年人工智能研究的结晶。不幸的是,大多数涉及它们的文章都属于以下两种类型:它们要么非常技术性并且需要大量的先验知识,要么太过琐碎以至于你最终不会比以前了解更多。

本文旨在在这两种方法之间取得平衡。或者让我换一种说法,它旨在带你从零开始,了解大型语言模型是如何培养的,以及为什么它们如此有效。我们将通过一路挑选所有相关的部分来做到这一点。

本文不会深入探讨所有细节,因此我们将尽可能依靠直觉而不是数学,并尽可能依靠视觉。但正如您所看到的,虽然 LLM 的详细内容非常复杂,但其主要机制非常直观,仅凭这一点就能让我们走得更远。

本文还可以帮助您更好地利用 ChatGPT 等 LLM。事实上,我们将学习一些巧妙的技巧,您可以应用这些技巧来增加获得有用回复的机会。或者正如著名人工智能研究员和工程师 Andrei Karparthy 最近尖锐地说的那样:“英语是最热门的新编程语言。”

但首先,让我们尝试了解大型语言模型 (LLM) 在人工智能领域中的地位。

大型语言模型的工作原理


人工智能领域是分层的。

人工智能领域通常以层次来表示:

  • 人工智能(AI)是一个非常宽泛的术语,但通常它涉及智能机器。
  • 机器学习(ML) 是人工智能的一个分支,专门用于数据中的模式识别。你可以想象,一旦你识别出一种模式,你就可以将该模式应用于新的观察结果。这就是这个想法的本质,但我们稍后会讲到这一点。
  • 深度学习是机器学习中专注于非结构化数据(包括文本和图像)的领域。它依赖于人工神经网络,这是一种(大致)受人类大脑启发的方法。
  • 大型语言模型(LLM) 专门处理文本,这将是本文的重点。

在我们继续讲解的过程中,我们会从每一层中挑选出相关的部分。我们只会跳过最外层的人工智能(因为它太笼统了),直接进入机器学习。

大型语言模型的工作原理


机器学习。级别:初学者。

机器学习的目标是发现数据中的模式。或者更具体地说,是描述输入和结果之间关系的模式。最好用一个例子来解释这一点。

假设我们想区分我最喜欢的两种音乐流派:雷鬼音乐R&B。如果你不熟悉这两种音乐流派,这里有一个非常简短的介绍,可以帮助我们理解这项任务。雷鬼音乐是一种拉丁都市音乐流派,以其活泼的节奏和舞曲节奏而闻名,而 R&B(节奏布鲁斯)是一种植根于非裔美国音乐传统的音乐流派,其特点是深情的歌声和欢快与慢节奏歌曲的混合。

大型语言模型的工作原理


机器学习实践。预测音乐类型是分类问题的一个例子。

假设我们有 20 首歌曲。我们知道每首歌曲的节奏和能量,这两个指标可以简单地测量或计算任何歌曲。此外,我们用流派标记它们,要么是雷鬼,要么是 R&B。当我们将数据可视化时,我们可以看到高能量、高节奏的歌曲主要是雷鬼,而低节奏、低能量的歌曲主要是 R&B,这是有道理的。

然而,我们希望避免总是手动标记流派,因为这很耗时,而且不可扩展。相反,我们可以了解歌曲指标(节奏、能量)与流派之间的关系,然后仅使用现成的指标进行预测。

用机器学习术语来说,我们称这是一个分类问题,因为结果变量(流派)只能采用一组固定的类别/标签之一 — — 此处为雷鬼和 R&B。这与回归问题相反,回归问题的结果是一个连续值(例如温度或距离)。

现在,我们可以使用标记的数据集(即使用一组我们确实知道其类型的歌曲)来“训练”机器学习模型(或“分类器”)。从视觉上讲,模型的训练在这里的作用是找到最能区分两个类别的界线。

这有什么用呢?好吧,既然我们知道了这条界线,对于任何一首新歌,我们都可以预测它是一首雷鬼歌曲还是一首 R&B 歌曲,这取决于这首歌属于哪一边。我们所需要的只是节奏和能量,我们认为这些更容易获得。这比让人类为每首歌分配流派要简单得多,也更具可扩展性。

此外,你可以想象,距离线越远,我们就越有把握预测是正确的。因此,我们通常也可以根据距离线的远近来判断我们对预测的正确性有多大信心。例如,对于我们新的低能量、低节奏的歌曲,我们可能有 98% 的把握认为这是一首 R&B 歌曲,而有 2% 的可能性认为它实际上是雷鬼音乐。

大型语言模型的工作原理


事实上,事情往往要复杂得多。

但当然,现实往往比这更复杂。

划分类别的最佳边界可能不是线性的。换句话说,输入和结果之间的关系可能更复杂。它可能像上图一样弯曲,甚至比上图复杂很多倍。

现实通常在另一个方面也更加复杂。与我们的例子中只有两个输入不同,我们通常有数十、数百甚至数千个输入变量。此外,我们通常有两个以上的类别。并且所有类别都可以通过极其复杂的非线性关系依赖于所有这些输入。

即使在我们的例子中,我们也知道现实中不止两种流派,除了节奏和能量,我们还需要更多的指标。它们之间的关系可能也不是那么简单。<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值