《两周内学习 LLM:全面路线图》

原文:towardsdatascience.com/how-i-studied-llms-in-two-weeks-a-comprehensive-roadmap-e8ac19667a31

被付费墙挡住了?免费阅读!

理解 LLM 在底层是如何运作的,正在成为机器学习中的一个基本技能。无论你是选择适合你应用的正确模型,寻找对该领域的通用知识,还是关注关于 LLM 及其潜在能力以理解创造或导致 AGI 的讨论,第一步是理解它们是什么

在这篇文章中,我将分享我的学习经验,以及我在大约 14 天内学习 LLM 基础知识的最有帮助的资源,以及如何在相对较短的时间内完成这项任务。这个路线图可以帮助你学习几乎所有的基础知识:

cdn.embedly.com/widgets/media.html?type=text%2Fhtml&key=a19fcc184b9711e1b4764040d3dc5c07&schema=twitter&url=https%3A//x.com/Hesamation/status/1845138651954532666&image=

我开始这段旅程的原因

我对深入理解概念着迷,即使我已经了解它们。我能够阅读并理解关于 LLM 的研究,我能够构建代理或微调模型。但这对我来说似乎还不够。

我想了解大型语言模型在数学和直观上的工作原理,以及它们为什么会有这样的行为。

我对这个领域已经很熟悉了,所以我知道我的知识差距在哪里。我有机器学习和这个特定领域的背景,这极大地帮助我在两周内完成了这项任务,否则这需要超过一个月的时间。

我的 学习材料

我想进行这次学习之旅,不仅是为了 LLM,还有我对许多其他感兴趣的话题(量子机器学习、Jax 等)。为了记录所有这些内容并保持整洁,我开始创建我的**ml-retreat GitHub 仓库**。想法是,有时我们需要从我们典型的工作中退出来,反思我们认为我们知道的事情,并填补这些差距。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5728897fd5daa7e2dd64e5710b727b67.png

ml-retreat 仓库。

这个仓库的接受度比我预期的要好得多。在撰写本文时,它已经被标记了⭐ 330 次,并且还在增加。很多人都在寻找我注意到的东西,那就是所有最佳资源的单一全面路线图

我至今使用的所有材料都是免费的,你不需要支付任何费用。

我主要在三个步骤中学习 LLM:

1. 从零开始构建 LLM

这将总结语言模型的基础知识。标记和位置嵌入、自注意力、Transformer 架构、原始的“Attention is All You Need”论文以及微调的基础知识。虽然我为每个主题使用了大量的资源,但对我来说,一个关键资源是 Sebastian Raschka 的*从零开始构建大型语言模型*(你可以在网上免费阅读)。这本书巧妙地揭示了每个主题,使它们尽可能易于理解。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0d0a04f1b429a0b5aa87892ee9ce6430.png

我对 LLM 基础知识的笔记。(来源

挑战在于这个阶段我认为是自注意力——不是它是什么,而是它是如何工作的。自注意力是如何将每个标记的上下文与其他标记相关联的?Query、Key 和 Value 代表什么,为什么它们至关重要?我建议花尽可能多的时间来理解这部分,因为它实际上是 LLM 工作原理的核心。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/2b2b43afd79b65b1a684028f2bf16055.png

图片由作者提供。

2. LLM 幻觉

在我的研究第二部分,我想了解什么是幻觉,以及为什么 LLM 会产生幻觉。这更多是一个潜藏在我心中的个人问题,但它也使我能够理解语言模型的一些方面。

我了解到 LLM 存在的位置偏差,即 LLM 更倾向于靠近的标记,而忽略了更远的标记。我还了解到暴露偏差,这意味着在推理阶段,预测一个错误的标记可能会像雪球效应一样,影响下一个标记的生成过程。我还了解到数据、训练和推理如何各自对这种幻觉困境做出贡献。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4bccbdfefc9639c6bc5aeb7d75203cf8.png

我对 LLM 幻觉的笔记。(来源

对于研究人员和使用 LLM 开发应用的人来说,幻觉都是一个头疼的问题。我强烈建议你花时间研究为什么会发生这种情况,以及如何减轻它。

3. LLM 边缘:超越注意力

最后两个阶段展示了 LLM 的工作原理。然而,有一些技术虽然不是那么基础,但已经成为构建 LLM 的主流。因此,我研究了:

  • 暂停标记,这为 LLM 提供更多“思考”时间。

  • 无限注意力,它通过利用先前标记的一种记忆,使 LLM 能够拥有非常大的上下文窗口(如 Gemini 的 1M 上下文窗口)。

  • RoPE(旋转位置嵌入),一种在 Llama 和许多其他 LLM 中使用的相对位置嵌入方法,它提供了关注序列中远距离标记的好处。

  • KV 缓存通过消除在生成先前标记时重复的计算来加速生成。

  • 专家混合(MoE),它结合了几个较小的 LLM 而不是一个大型的 LLM。这种技术在 Mistral 的语言模型中得到了普及。他们的 8 个 7B 大小的模型在某些任务上可以超越 70B 的 Llama 2,这真的很令人印象深刻!

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3d1cf4668f1e4372c25f5866a66db33d.png

我对一些流行的大型语言模型(LLM)技术的笔记。(来源

为了回顾这些主题,我研究了 Meta 的 Llama 的架构和代码,它封装了我提到的许多主题。这个资源再次在我的仓库中。

我的 学习资源

我没有使用单一的资源来学习这些主题。

对于 LLM 的基础知识,我使用了 从零开始构建大型语言模型.

我还阅读了许多 论文。阅读论文可能看起来很困难,但它们增加了很多价值。特别是那些首先提出技术(如原始的 Transformer 论文)以及那些综合许多论文并给出 TL;DR 的综述论文。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/24fcedc4803ce4fa8ec224bba8cb0211.png

安德烈·卡帕西的播放列表。(来源

YouTube 视频特别非常有帮助。我在学习许多这些材料时,将观看 YT 作为第一步,只是为了热身并形成观点。我强烈建议观看 安德烈·卡帕西 的播放列表,其中包含大量关于语言建模和 LLM 的视频。有什么比一个天才从零到英雄地解释 LLM 更好的呢!

开始前的先决条件

学习 LLM 并不 复杂,但也不完全是 适合初学者。对机器学习和相关主题的基础理解将使学习过程更加顺利。

数学

  • 线性代数:向量与矩阵,矩阵乘法

  • 概率论和统计学:概率的基础,随机变量和分布,期望和方差,最大似然估计(MLE)

  • 微积分:微分和积分(特别是对于反向传播),偏导数(用于基于梯度的优化)

  • 优化:梯度下降,随机梯度下降(SGD),高级优化器(例如 Adam)

编程和框架

  • Python:熟悉 NumPy 和 Pandas 等库

  • 深度学习框架:TensorFlow 或 PyTorch,熟悉模型训练、调试和评估

深度学习概念

  • 对感知器、激活函数和层的理解。反向传播和梯度下降。损失函数(交叉熵,均方误差)

  • 卷积神经网络(CNNs)(可选但很有帮助):有助于理解模型中层的运作方式

自然地,你可能不知道其中的一些。但这并不意味着你不应该开始学习。只需知道,如果你在某些时候遇到困难,这是预料之中的,你可以在以后更深入地学习它们。

一些额外提示 ✨

在学习过程中我学到的一些东西或可能对你有帮助:

享受过程

我确实提到我在两周内学习了这些科目。它们并不特别复杂,但我只提到时间是为了强调这并不太难做。我建议你不必过于关注在严格截止日期前学习这些材料。当然,当我开始的时候,我并没有打算在 14 天内完成。我只是做到了。但这个过程可能持续一个月,我不会有任何问题,只要我能有发现事物的乐趣

不要跟随我的路线图

这可能听起来很奇怪,但我的学习路径就是我的学习路径。不要觉得你需要严格遵循我的路线图。它对我非常有效,但并不能保证对你也是如此。

学习是一个非常个人化的体验。你学到的东西是你已知和想要知道的东西的产物。这对每个人来说都是不同的。所以请不要跟随我的路线图,只需挑选你感兴趣的精彩部分。对于你看到的和听到的任何其他路线图也是如此。没有一本书、资源或路线图是完美的,所以不要把自己限制在一件事情上。

不要完成所有内容

当你拿起一本书、YouTube 视频或论文来学习这些材料时,你并不需要用血来发誓完成它。你只是去取你想要的东西然后离开。特别是论文,阅读起来可能非常耗时。所以这里是我的建议:

在阅读这些材料之前,确定你心中的问题,并具体寻找答案。这可以节省你浪费时间在不相关的但可能很好的内容上。

总结

我对我的存储库和分享我的学习路径所获得的社区支持感到震惊。我将继续学习更多主题,全模型、ViT、GNN、量子机器学习等都在我的清单上。所以不要错过**我的 X 帖子**,我在那里分享了我笔记的摘要。

cdn.embedly.com/widgets/media.html?type=text%2Fhtml&key=a19fcc184b9711e1b4764040d3dc5c07&schema=twitter&url=https%3A//x.com/Hesamation/status/1844858056179380645&image=

此外,我的 GitHub 存储库ml-retreat是我分享到目前为止所有材料的地点:

GitHub – hesamsheikh/ml-retreat: 中级到高级的 AI 学习路径

感谢您阅读完这篇文章。 如果您有兴趣进一步阅读,以下是我的建议 😃

关于机器学习我们仍然不理解的内容

在编程中使用 AI 的更智能的方式

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a1131c5b2c3bbb95fe2d478ff6b4a379.png

由 Midjourney 创建的图片。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值