
LLM图解
文章平均质量分 96
LLM图解
AI仙人掌
NLP算法专家|深耕智能文本处理领域,专注用AI技术驱动金融与政务场景的数字化转型
技术核心能力
领域专长
• 金融政务场景:10年+垂直领域经验,聚焦智能风控、政务文档解析、高精度信息抽取
• 文本智能处理:构建金融合同解析、监管文件结构化、政务问答系统等20+行业解决方案
展开
-
详解如何复现LLaMA 4:从零开始利用Python构建
首先,我们以的开发人员身份来理解 LLaMA 4 架构,然后通过一个例子来看看它是如何通过架构处理的,以便更清晰地理解。想象一下,你有一个非常艰巨的任务。与其雇佣一个对什么都懂一点的人,不如雇佣一个团队,每个成员都是某个特定领域的专家(比如电工、水管工、油漆工)。你还会雇佣一个经理,他查看当前的任务,并将其分配给最适合的专家。AI 模型中的 MoE 就有点像这样。一组“专家”:这些是较小的、专门化的神经网络(通常是简单的前馈网络或 MLP)。每个专家可能擅长处理某些类型的信息或模式。原创 2025-04-17 02:01:53 · 2059 阅读 · 72 评论 -
利用python从零实现Byte Pair Encoding(BPE):NLP 中的“变形金刚”
在自然语言处理(NLP)的世界里,分词是将文本转换为机器可理解形式的关键步骤。传统的分词方法存在诸多局限,如词汇表过大、无法处理未见过的单词等。Byte Pair Encoding(BPE)作为一种强大的子词分词技术,通过迭代合并训练语料库中出现频率最高的相邻符号对,巧妙地解决了这些问题。它不仅能够有效控制词汇表的大小,还能大幅减少词汇外问题(OOV),同时保留单词的形态学信息。本文将从零开始,详细实现 BPE 算法,逐步展示其训练过程、合并规则学习以及对新文本的分词能力,揭示 BPE 如何将普通文本“变形原创 2025-04-10 00:00:00 · 1386 阅读 · 24 评论 -
详解如何从零用 Python复现类似 GPT-4o 的多模态模型
在这篇博客中,我们从零开始构建了一个多模态模型,能够处理文本、图像、视频和音频,并根据文本提示生成图像。我们首先实现了 BPE 分词器,将文本分解为子词标记。接着,我们构建了一个基于 Transformer 的语言模型,能够生成文本。然后,我们将模型扩展为多模态,通过 ResNet 提取图像特征,并将这些特征与文本结合,使模型能够回答关于图像的问题。我们还展示了如何通过文本提示生成图像特征向量,并找到最接近的已知图像。整个过程不仅展示了多模态模型的强大能力,还揭示了其在实际应用中的潜力。原创 2025-04-10 00:00:00 · 13696 阅读 · 103 评论 -
详解如何复现DeepSeek R1:从零开始利用Python构建
本文详细介绍了从零开始构建 DeepSeek R1 的过程,涵盖了从基础模型选择、训练数据准备到多阶段训练的完整流程。首先,通过强化学习(RL)和 GRPO 算法训练出 R1 Zero,解决了基础模型的推理能力问题。接着,通过监督式微调(SFT)和冷启动数据,进一步优化模型的推理风格和语言一致性。最后,通过推理导向的强化学习、拒绝采样以及知识蒸馏等技术,不断提升模型的推理质量和实用性,最终得到高效且推理能力强的 DeepSeek R1 模型。整个过程不仅注重技术实现,还通过详细示例和代码,让读者能够清晰地理原创 2025-04-11 00:00:00 · 2587 阅读 · 56 评论 -
【复读】从零开始图解DeepSeek R1 架构与训练过程
本文详细介绍了 DeepSeek R1 的架构设计与训练过程。DeepSeek R1 是一种先进的大型语言模型(LLM),它并非从零开始训练,而是基于已有的 DeepSeek-V3 模型,通过强化学习(RL)进行优化,以提升推理能力。文章首先解释了 DeepSeek-V3 的工作原理,它通过混合专家模型(MOE)架构,根据问题的复杂性选择不同的处理路径。接着,文章深入探讨了 DeepSeek R1 的训练过程,包括使用 GRPO 算法进行强化学习,以及如何通过奖励系统和拒绝采样等技术来优化模型的推理能力和语原创 2025-04-09 09:57:24 · 1548 阅读 · 3 评论 -
什么是测试时计算?40张图带你深度理解推理型 LLM 的概念与DeepSeek-R1 的完整训练过程
40多张图带你探索推理大模型、测试时计算,并深入研究 DeepSeek-R1原创 2025-03-11 00:00:00 · 1098 阅读 · 0 评论 -
利用50张可视化动图理解Mamba与状态空间模型
Mamba 和状态空间模型的简单介绍:为了进一步改进 LLM序列长度增加,则成本会很高的缺点,人们开发了新的架构,其性能甚至可能超越 Transformer 架构。其中一种方法就是Mamba ,一种状态空间模型原创 2025-03-07 00:15:00 · 840 阅读 · 0 评论 -
50张图解密大模型量化技术:INT4、INT8、FP32、FP16、GPTQ、GGUF、BitNet
量化的目标是将模型参数的精度从较高的位宽(如32位浮点数)降低到较低的位宽(如8位整数)。在减少表示原始参数的位数时,通常会损失一些精度(粒度)。为了说明这种效果,我们可以拿任何一张图片,只用8种颜色来表示它:请注意放大后的部分看起来比原始图像更“颗粒化”,因为我们只能用更少的颜色来表示它。量化的主要目标是减少表示原始参数所需的位数(颜色),同时尽可能保留原始参数的精度。原创 2025-03-08 00:15:00 · 1849 阅读 · 0 评论