从零实现LLM
文章平均质量分 96
python 从零实现LLM https://github.com/xrzlizheng/PyLLMFromScratch.git
AI仙人掌
NLP算法专家|深耕智能文本处理领域,专注用AI技术驱动金融与政务场景的数字化转型
技术核心能力
领域专长
• 金融政务场景:10年+垂直领域经验,聚焦智能风控、政务文档解析、高精度信息抽取
• 文本智能处理:构建金融合同解析、监管文件结构化、政务问答系统等20+行业解决方案
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
如何设计一个用于大规模生产任务的人工智能AI系统
大规模AI系统构建的关键阶段 本文探讨了构建能够服务数百万用户、处理TB级数据的AI系统所需的核心开发阶段。第一阶段聚焦系统硬件与基础设施,详细分析了三种主流计算硬件(CPU/GPU/TPU)的适用场景,以及FPGA、ASIC等新型硬件的优势。文章指出硬件选择需结合模型架构和量化技术,并比较了不同云服务方案的性价比。 在分布式系统方面,强调了任务分解、资源自动调配和性能监控的重要性。网络优化需要关注延迟控制、带宽扩展和通信协议选择。数据存储解决方案则需根据数据类型选择对象存储/文件系统/数据库,并合理运用数原创 2025-06-11 23:30:00 · 1651 阅读 · 3 评论 -
四大LLM 微调开源工具包深度解析
本文介绍了四种开源工具包,帮助企业高效微调大语言模型(LLM)。Unsloth显著降低显存占用,使单GPU微调13B参数模型成为可能;DeepSpeed实现大规模分布式训练,支持70B参数的超大模型;vLLM优化推理效率,吞吐量提升2-4倍;Axolotl简化微调流程,支持多种高效技术。这些工具共同解决了企业面临的计算资源有限、高风险领域需求和快速迭代周期等挑战,使生产级LLM微调变得实用且高效。通过合理组合这些工具,企业可在普通硬件上实现专业级的模型定制,获得竞争优势原创 2025-06-11 18:24:10 · 1755 阅读 · 5 评论 -
从零开始用Python构建一个推理LLM(类似 o3 和 DeepSeek-R1):详细的端到端指南
本文介绍了如何从零开始使用 Python 创建一个 200 万参数的推理型语言模型(LLM),并逐步通过预训练、有监督微调(SFT)和基于人类反馈的强化学习(RLHF)三个阶段赋予其推理能力。作者详细展示了如何训练分词器、构建 Transformer 模型、设计数据集加载器,并通过代码示例和训练循环展示了每个阶段的实现过程。最终,模型能够生成包含“思考”和“回答”标签的推理式回答,尽管在小数据集上表现有限,但在更大数据集上训练时表现出了较好的推理能力。原创 2025-05-21 02:45:00 · 1784 阅读 · 34 评论 -
理解大型语言模型中的 KV 缓存
大型语言模型(LLMs)在生成文本时,通常是一个词元(token)一个词元地生成,每次生成一个词元后,将其作为输入来预测下一个词元。然而,这种逐词生成的方式会导致模型在每一步中重复计算大量相同的工作,从而降低效率。为了解决这个问题,引入了 KV 缓存 技术。KV 缓存通过存储每个步骤中计算出的键(Key)和值(Value)向量,避免重复计算,从而显著提高模型的推理速度。尽管 KV 缓存会占用额外的 GPU 内存,但它在现代大型语言模型中被广泛应用,以优化生成效率。实验表明,使用 KV 缓存可以将生成速度提升原创 2025-05-22 00:15:00 · 1832 阅读 · 0 评论 -
Qwen-3 微调实战:用 Python 和 Unsloth 打造专属 AI 模型
本文详细介绍了如何利用 Python 和 Unsloth 对 Qwen-3 模型进行微调,以打造专属的 AI 模型。文章首先强调了 Qwen-3 在各项基准测试中的出色表现,随后详细阐述了微调所需的 Python 库、计算资源以及数据准备策略。接着,通过具体的代码示例,展示了从模型初始化、添加 LoRA 适配器到数据预处理、模型训练以及推理的全过程。最后,还介绍了如何保存和推送微调后的模型至 Hugging Face Hub,为读者提供了一套完整的实战指南。原创 2025-05-15 02:00:00 · 7960 阅读 · 51 评论 -
用PyTorch在超大规模下训练深度学习模型:并行策略全解析
本文深入探讨了使用 PyTorch 在超大规模下训练深度学习模型时的各种并行策略。从数据并行、张量并行到上下文并行、流水线并行、专家并行,再到 ZeRO 零冗余优化器,文章详细解析了每种技术的原理、实现方法、优点与注意事项,并结合 PyTorch 提供了丰富的代码示例。这些并行策略的组合运用,能够有效应对大规模模型训练中的内存和计算挑战,帮助研究人员突破传统硬件限制,实现更高效、更快速的模型迭代与部署,推动深度学习技术在大规模应用场景中的发展。原创 2025-05-14 09:52:21 · 1307 阅读 · 3 评论 -
量化感知训练与 PyTorch 的哪些事
量化感知训练(Quantization-Aware Training, QAT)是一种在模型训练过程中模拟量化效果的技术,旨在提高模型在低精度环境下的准确性。QAT通过在训练过程中引入“假量化”操作,使模型能够适应量化带来的噪声,从而在最终量化时保持较高的性能。与训练后量化(PTQ)相比,QAT需要更多的计算资源和时间,但通常能获得更好的准确性。QAT的工作流程包括准备阶段、训练阶段和转换阶段,其中训练阶段通过直通估计器(STE)处理梯度,使模型能够补偿量化噪声。PyTorch提供了多种量化模式原创 2025-05-13 18:54:55 · 1631 阅读 · 0 评论 -
Transformer自注意力机制中的缩放原理—— 读了绝对不后悔!
在自注意力机制中,缩放点积注意力的核心目的是控制注意力分数的方差,以确保SoftMax函数的稳定性。当计算查询(Q)和键(K)矩阵的点积时,随着向量维度的增加,点积结果的方差也会显著增大。这会导致SoftMax函数在处理高方差数据时,倾向于将大部分概率分配给极少数值,从而影响模型的性能。 为了解决这个问题,论文《Attention is All You Need》提出将点积结果除以键向量维度的平方根(√d_k)。这种缩放操作能够有效降低点积结果的方差,使其分布更加均匀,从而确保SoftMax函数能够更合理地原创 2025-05-13 00:30:00 · 1647 阅读 · 0 评论 -
深度剖析LLM的“大脑”:单层Transformer的思考模式探索
本文深入探索了大型语言模型(LLM)的内部思考机制。通过训练一个单层Transformer模型,并结合稀疏自编码器技术,研究者们试图解读LLM的神经元激活模式。实验发现,经过稀疏处理后,部分神经元能够高度专注于特定概念,如特定语言的后缀、十六进制代码、情态动词等。这表明LLM在某种程度上能够像人类一样对不同概念进行区分和识别。尽管目前的研究仅基于小型模型,但它为理解LLM的“思考”方式迈出了重要一步,未来有望进一步揭示AI组织知识的奥秘。原创 2025-05-15 00:00:00 · 1734 阅读 · 0 评论 -
从零开始理解FlashAttention:算法细节图解
介绍了 FlashAttention 技术,它通过优化 GPU 内存层次结构和融合内核,实现了快速且节省内存的精确注意力计算。文章分为两部分:第一部分介绍了注意力机制的基础知识以及 GPU 优化方法;第二部分深入讲解了 FlashAttention 的核心算法,包括如何分解 SoftMax 操作以支持分块计算,以及如何在前向和反向传播中高效处理中间结果。FlashAttention 实现了 7.6 倍的速度提升和 O(N) 的内存复杂度,同时保持了精确的注意力分数,极大地推动了大规模模型训练的效率和可行性原创 2025-05-09 12:16:23 · 1127 阅读 · 1 评论 -
使用Python从零开始构建端到端文本到图像 Transformer大模型
本文介绍了一种基于Transformer的文本到图像生成方法。通过加载预训练的多模态模型组件,将文本提示映射为图像特征向量,并利用最近邻搜索在已知图像中找到最匹配的结果。该方法避免了直接像素生成的复杂性,采用简化策略实现跨模态生成。实验中,模型通过训练文本-图像对数据,学习预测与目标图像特征向量接近的输出。最终,通过展示与预测特征向量最接近的训练图像,验证了方法的有效性。尽管该方法在小规模数据集上取得了初步成果,但与复杂的GAN或扩散模型相比,仍有较大提升空间。原创 2025-04-13 00:00:00 · 1054 阅读 · 3 评论 -
使用Python从零实现一个端到端多模态 Transformer大模型
本文介绍了一个端到端的多模态 Transformer 模型,能够同时处理图像和文本数据。我们从预训练的文本 Transformer 模型出发,通过加载其权重和配置,扩展模型以支持图像输入。我们使用 ResNet-18 提取图像特征,并将其投影到 Transformer 的嵌入空间。通过构建一个小型的图像、提示和回答数据集,我们对模型进行了微调,使其能够根据图像和文本提示生成回答。最终,我们展示了如何使用训练好的模型进行推理,并生成描述图像的文本。这个实现为多模态人工智能的应用提供了一个基础框架。原创 2025-04-12 00:00:00 · 1629 阅读 · 1 评论 -
使用Python从零开始构建生成型TransformerLM并训练
本文详细介绍了 Transformer 模型的实现过程,包括从字符级标记化到模型训练和文本生成的完整步骤。通过内联代码和详细注释,展示了如何构建一个仅解码器的 Transformer 语言模型。模型利用注意力机制捕捉文本中的关键信息,通过训练学会生成文本。文章还探讨了模型保存与加载的方法,并展望了其未来的发展。整个过程以幽默风趣的方式呈现,旨在帮助读者深入理解 Transformer 模型的原理和应用。原创 2025-04-11 00:00:00 · 1672 阅读 · 0 评论 -
python从零实现多模态Multi-Modal RAG:RAG 的“跨界”之旅,从书呆子到全能艺术家
从只会埋头苦读的“书呆子”,到如今既能读懂文字又能看懂图像的“全能艺术家”,RAG 的成长简直像是一部励志大片!它不仅学会了“看图说话”,还能把图像和文本完美结合,变成知识检索界的“黄金搭档”。文本分块:像切蛋糕一样把文本切成小块,方便消化。图像描述:给每张图像配上“解说词”,让它们不再默默无闻。向量存储:把文本和图像描述变成“数字密码”,存进它的“记忆库”。相似度搜索:像侦探一样,快速找到最相关的信息。生成响应。原创 2025-03-31 00:00:00 · 667 阅读 · 0 评论 -
【复读】从零开始图解DeepSeek R1 架构与训练过程
本文详细介绍了 DeepSeek R1 的架构设计与训练过程。DeepSeek R1 是一种先进的大型语言模型(LLM),它并非从零开始训练,而是基于已有的 DeepSeek-V3 模型,通过强化学习(RL)进行优化,以提升推理能力。文章首先解释了 DeepSeek-V3 的工作原理,它通过混合专家模型(MOE)架构,根据问题的复杂性选择不同的处理路径。接着,文章深入探讨了 DeepSeek R1 的训练过程,包括使用 GRPO 算法进行强化学习,以及如何通过奖励系统和拒绝采样等技术来优化模型的推理能力和语原创 2025-04-09 09:57:24 · 1825 阅读 · 3 评论
分享