Build A Large Language Model
文章平均质量分 88
帮助读者全面理解并从头创建类似 GPT 的大型语言模型(LLMs)
蓦然回首却已人去楼空
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
用mac的ollama访问模型,为什么会出现模型胡乱输出,然后过一会儿再访问,就又变成正常的
大模型推理是一个链式计算过程,任何环节数据损坏(如参数未加载、激活丢失、推理中断),都会让后续输出出现问题。内存/CPU资源不足,导致关键数据丢失、损坏;底层框架忍受了这种错误,导致“看似正常、实则混乱”的输出。这些问题不会必然崩溃,因为模型和框架都具有一定的容错机制,但输出的质量会大幅下降。原创 2025-06-18 17:11:01 · 568 阅读 · 0 评论 -
Build a Large Language Model (From Scratch)-appendix A-Introduction to PyTorch
本附录旨在为您提供将深度学习应用于实践并从头开始实现大型语言模型(LLM)所需的技能和知识。PyTorch 是一个流行的基于 Python 的深度学习库,它将是本书使用的主要工具。我将指导您设置一个配备 PyTorch 和 GPU 支持的深度学习工作环境。然后,你将学习张量的基本概念及其在 PyTorch 中的应用。我们还将深入探讨 PyTorch 的自动微分引擎,该功能使我们能够便捷、高效地使用反向传播,而反向传播是神经网络训练的关键环节。本附录旨在为刚接触PyTorch深度学习的读者提供入门指南。尽管它原创 2025-06-16 11:46:48 · 1102 阅读 · 0 评论 -
Build a Large Language Model (From Scratch) 第二章 Working with text data
你将学习如何为训练大型语言模型(LLMs)准备输入文本。这包括将文本拆分为单个单词和子词标记,然后将这些标记编码为适合LLM的向量表示。你还将了解高级标记化方案,如字节对编码(BPE)——这是GPT等流行LLM中使用的技术。最后,我们将实现一种采样和数据加载策略,以生成训练LLM所需的输入-输出对。原创 2025-06-10 00:36:00 · 1375 阅读 · 0 评论 -
Build a Large Language Model (From Scratch) 序章
从零构建大型语言模型》旨在。全书首先聚焦于文本数据处理的基础知识和注意力机制的编码,随后指导读者逐步实现一个完整的GPT模型。书中还涵盖了预训练机制以及针对文本分类和指令遵循等特定任务的微调方法。通过阅读本书,读者将深入理解LLM的工作原理,并掌握构建自有模型的技能。尽管书中创建的模型规模小于大型基础模型,但它们使用相同的核心概念,是掌握构建尖端LLM所需核心机制和技术的有力教学工具。原创 2025-06-04 00:58:27 · 855 阅读 · 0 评论
分享