- 博客(89)
- 资源 (3)
- 收藏
- 关注
原创 【Dive Into Stable Diffusion v3.5】2:Stable Diffusion v3.5原理介绍
我们先用最通俗易懂的语言结合源码详细介绍扩散模型的原理,再详细介绍StableDiffusion3和3.5的原理。
2025-03-23 21:16:25
907
原创 【Dive Into Stable Diffusion v3.5】1:开源项目正式发布——深入探索SDv3.5模型全参/LoRA/RLHF训练
在人工智能和机器学习领域,生成模型的应用越来越广泛。Stable Diffusion 作为其中的佼佼者,因其强大的图像生成能力而备受关注。今天,我的开源项目 **Dive Into Stable Diffusion v3.5** 已经正式发布!这个项目旨在总结我在开发过程中所学到和用到的知识和工具,同时帮助其他开发者更好地理解和应用 Stable Diffusion v3.5 模型。目前,项目提供了多种微调和优化的方法,包括全量参数微调、LoRA、DreamBooth、RLHF和DPO训练等。
2025-03-19 21:37:26
884
原创 【AIGC系列】6:HunyuanVideo视频生成模型部署和代码分析
本文详细介绍HunyuanVideo的部署、应用以及源码分析。不得不说,生成的视频很真实生动!
2025-03-06 22:35:22
1225
原创 【DeepSeek-R1背后的技术】系列十四:MoE源码分析(腾讯Hunyuan大模型介绍)
混元大模型的代码其实和其他MoE模型差不多,结构比较清晰,非常适合上手。因为DeepSeek-R1没有公布模型框架的源码,我们参考腾讯开源的混元大模型进行代码分析,整体构建上应该和DeepSeek-R1差不多,可能细节上会有些不同。
2025-03-06 00:00:21
969
原创 【AIGC系列】5:视频生成模型数据处理和预训练流程介绍(Sora、MovieGen、HunyuanVideo)
本文详细介绍了开源的视频生成模型MovieGen和HunyuanVideo预训练数据的处理流程以及预训练流程。
2025-02-28 23:02:59
1296
原创 【AIGC系列】4:Stable Diffusion应用实践和代码分析
上一篇博文我们学习了Stable Diffusion的原理,这一篇我们继续深入了解Stable Diffusion的应用实践和分析。
2025-02-28 14:05:46
1312
原创 【DeepSeek-R1背后的技术】系列十三:归一化方式介绍(BatchNorm, LayerNorm, Instance Norm 和 GroupNorm)
一图秒懂四种归一化方式!
2025-02-27 23:57:02
1261
原创 【DeepSeek-R1背后的技术】系列十二:分词算法Tokenizer(WordPiece,Byte-Pair Encoding (BPE),Byte-level BPE(BBPE))
Tokenization(分词) 在自然语言处理(NLP)的任务中是最基本的一步,把文本内容处理为最小基本单元即token 用于后续的处理。如何把文本处理成token呢?有一系列的方法,基本思想是构建一个词表通过词表一一映射进行分词,构建合适的词表。
2025-02-27 23:56:39
1370
2
原创 【AIGC系列】3:Stable Diffusion模型原理介绍
Stable diffusion是一个基于 Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。具体来说,得益于 Stability AI 的计算资源支持和在 LAION-5B 的一个子集数据支持训练,用于文图生成。Latent Diffusion Models 通过在一个潜在表示空间中迭代“去噪”数据来生成图像,然后将表示结果解码为完整的图像,让文图生成能够在消费级GPU上,在10秒级别时间生成图片。
2025-02-26 22:55:23
1801
原创 【AIGC系列】2:DALL·E 2模型介绍(内含扩散模型介绍)
OpenAI在2021年1月推出了DALL·E,并于该年底推出GLIDE,时隔一年又在2022年4月推出DALL·E2。相比 DALL·E ,DALL·E2 可以生成更真实和更准确的画像:综合文本描述中给出的概念、属性与风格等三个元素,生成现实主义图像与艺术作品,分辨率更是提高了4倍。
2025-02-26 12:43:22
841
原创 【AIGC系列】1:自编码器(AutoEncoder, AE)
自编码器(Autoencoder,AE),是一种利用反向传播算法使得输出值等于输入值的神经网络,它先将输入压缩成潜在空间表征,然后将这种压缩后的空间表征重构为输出。AE隐藏层的向量具有降维的作用,所以,从本质上来讲,自编码器是一种数据压缩算法,其压缩和解压缩算法都是通过神经网络来实现的。是数据去噪,是为进行可视化而降维。进行图像压缩传统自编码器被用于降维或特征学习自编码器在适当的维度和系数约束下可以学习到比PCA等技术更有意义的数据映射。
2025-02-24 23:44:14
1033
原创 大模型专栏博文汇总和索引
大模型专栏主要是汇总了我在学习大模型相关技术期间所做的一些总结和笔记,主要包括以下几个子专栏:DeepSeek-R1、生成模型、大模型实践、Transformer、多模态、系统、视频理解、对比学习、目标检测、目标跟踪、图神经网络等。目前暂时先按照不同的技术领域划分子专栏,子专栏之间的内容可能会有交集,不完全是独立的。为了方便查阅相关模块的内容,故以此文章进行汇总与索引。
2025-02-24 17:19:17
1663
原创 【DeepSeek-R1背后的技术】系列十一:RAG原理介绍和本地部署(DeepSeekR1+RAGFlow构建个人知识库)
RAG(Retrieval-Augmented Generation,检索增强生成) 是一种结合了信息检索技术与语言生成模型的人工智能技术,该技术通过从外部知识库中检索相关信息,并将其作为提示(Prompt)输入给大型语言模型(LLMs),以增强模型处理知识密集型任务的能力,如问答、文本摘要、内容生成等。RAG模型由Facebook AI Research(FAIR)团队于2020年首次提出,并迅速成为大模型应用中的热门方案。
2025-02-23 20:05:15
1849
2
原创 【DeepSeek-R1背后的技术】系列十:PEFT(参数高效微调——Adapter、Prefix Tuning、LoRA)
参数高效微调方法这么多,本文介绍几种比较有代表性的参数高效微调方法,如:适配器微调(Adapters tuning)、前缀微调(Prefix tuning)、提示词微调(Prompt tuning)、P-tuning和LoRA(Low-Rank Adaptation)。
2025-02-23 00:06:34
1494
原创 【DeepSeek-R1背后的技术】系列九:MLA(Multi-Head Latent Attention,多头潜在注意力)
在传统的Transformer架构中,多头注意力(MHA)机制允许模型同时关注输入的不同部分,每个注意力头都独立地学习输入序列中的不同特征。然而,随着序列长度的增长,键值(Key-Value,KV)缓存的大小也会线性增加,这给模型带来了显著的内存负担。为解决MHA在高计算成本和KV缓存方面的局限性,DeepSeek引入了多头潜在注意力(MLA)。多头潜在注意力(MLA)采用低秩联合压缩键值技术,优化了键值(KV)矩阵,显著减少了内存消耗并提高了推理效率。
2025-02-22 21:15:51
1915
原创 【DeepSeek-R1背后的技术】系列八:位置编码介绍(绝对位置编码、RoPE、ALiBi、YaRN)
本文主要介绍常见的绝对位置编码(sinusoidal)、旋转位置编码(Rotary Position Embedding,RoPE)、相对位置编码ALiBi(Attention with Linear Biases)以及YaRN(Yet another RoPE extensioN method)。
2025-02-22 20:11:55
1689
原创 【复现DeepSeek-R1之Open R1实战】系列9:有趣的现象——GRPO训练过程Loss从0开始慢慢变大
在用GRPO算法训练大模型的时候,我发现了一个很奇怪的现象:在训练过程中,Loss都是从0开始慢慢变大,最后趋于稳定。尝试了几次训练都是一样的现象。下面我们通过公式推导解释这个现象
2025-02-21 13:06:30
695
原创 【DeepSeek-R1背后的技术】系列七:冷启动
在 AI 训练中,“冷启动”(Cold Start) 这个概念类似于刚买了一部新手机,开机后发现什么都没有,必须先安装应用、下载数据,才能正常使用。DeepSeek-R1 的训练过程也类似,如果直接用强化学习(RL)进行训练,那么 AI 一开始就会像一个“什么都不会的孩子”,不断犯错,生成一堆毫无逻辑的答案,甚至可能陷入无意义的循环。为了解决这个问题,研究人员提出了“冷启动数据”的概念,即在 AI 训练的早期阶段,先用一小批高质量的推理数据微调模型,相当于给 AI 提供一份“入门指南”。
2025-02-21 00:06:56
987
1
原创 【复现DeepSeek-R1之Open R1实战】系列8:混合精度训练、DeepSpeed、vLLM和LightEval介绍
本文继续深入了解Open R1项目中用到的相关技术,包括训练模型用到的混合精度训练(bfloat16)、DeepSpeed、vLLM,以及评估模型用到的LightEval。
2025-02-20 22:25:24
1341
原创 【复现DeepSeek-R1之Open R1实战】系列7:GRPO原理介绍、训练流程和源码深度解析
本文详细介绍里GRPO的原理、流程以及详细的源码分析。
2025-02-20 00:06:15
2402
原创 【复现DeepSeek-R1之Open R1实战】系列6:GRPO源码结构解析
本文详细逐行深度解读GRPO源码,这里只解析GRPO独特的部分。
2025-02-18 23:05:11
1526
原创 【复现DeepSeek-R1之Open R1实战】系列4:跑通GRPO!
终于配置好flash-attention依赖库了!让我们一起跑通GRPO!
2025-02-17 21:17:18
1706
4
原创 【复现DeepSeek-R1之Open R1实战】系列3:基础知识介绍
本文先介绍HuggingFace的Open-R1项目,这是一个旨在系统性地重构DeepSeek-R1的数据集及其训练流程、验证paper里的成果,从而推进开源推理模型发展。通过构建Open-R1,阐明强化学习如何提升推理能力的,同时向开源社区分享可复现的项目,为未来基于这些技术开发新模型奠定基础。然后,再介绍一些大模型相关的概念和基础知识,如Tokenizer、SFT和GRPO等,便于大家深入去了解。掌握了这些基础概念和知识之后,我们再深入源码,逐行逐模块去分析,从而达到学会就能用的目的。
2025-02-17 21:01:33
1554
原创 【复现DeepSeek-R1之Open R1实战】系列2:没有卡也能训模型!Colab跑OpenR1(附源码)
在训模型之前,一定要记得修改配置文件 recipes/accelerate_configs/zero3.yaml。国内网络配置环境太头疼怎么办?让我们转移到Colab上去复现DeepSeek-R1吧!
2025-02-15 23:32:20
474
原创 【复现DeepSeek-R1之Open R1实战】系列1:跑通SFT(一步步操作,手把手教学)
最近DeepSeek-R1太火里,HuggingFace复现了R1,并将教程放到GitHub上里,我们趁热打铁,也来复现一下。在复现过程中,踩了很多坑,在这里记录下来,大家可以跟着一步步操作避坑。
2025-02-15 21:56:24
2934
8
原创 【多模态大模型】系列2:Transformer Encoder-Decoder——BLIP、CoCa、BEITv3
本文介绍基于Transformer Encoder-Decoder的BLIP、CoCa和BEITv3
2025-02-12 23:09:25
1097
原创 【多模态大模型】系列1:Transformer Encoder——ViLT、ALBEF、VLMO
近几年,尤其是 CLIP 出现以来,多模态学习的发展异常火爆。除了传统的视觉问答、图文检索、图像描述等,还有受启发于 CLIP 的新任务 Language Guided Detection/Segmentation、文本图像生成、文本视频生成等。
2025-02-12 22:52:23
675
原创 【CLIP系列】6:视频(CLIP4CLIP、Action CLIP)、语音(audio CLIP)及其他(CLIP-ViL、PointCLIP、DepthCLIP)
本文介绍将CLIP应用于视频、语音及其他领域的技术。
2025-02-11 22:53:19
851
原创 【CLIP系列】5:CLIP图像生成——CLIPasso
CLIPasso获得了2022年的SIGGRAPH最佳论文奖,其论文题目Semantically-Aware Object Sketching,意思就是语义感知的物体素描。从下面包含有毕加索(Picasso)名画的这张图,可以看出CLIPasso就是CLIP和毕加索的缩写,这些都表明了这是一篇研究从图片生成简笔画的文章。
2025-02-11 22:29:14
1203
原创 【CLIP系列】2:如何用多GPU训练大模型(数据/模型/流水线/张量并行、MoE、混合精度训练、压缩、激活重新计算)
近年来,随着更大规模的预训练语言模型的应用,我们在许多自然语言处理(NLP)基准任务上看到了更好的结果。然而,训练大型和深层神经网络是一个具有挑战性的任务,因为它需要大量的GPU内存和较长的训练时间。单个GPU工作节点的内存是有限的,而许多大型模型的规模已经超出了单个GPU的能力范围。为了在多个GPU之间进行模型训练,出现了几种并行化范式,以及各种模型架构和节省内存的设计,帮助实现对非常大的神经网络的训练。
2025-02-09 23:28:13
1077
原创 【CLIP系列】1:CLIP【多模态领域开山之作】
CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,与CV中的一些对比学习方法如moco和simclr不同的是,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的匹配关系。
2025-02-09 20:30:47
1053
原创 【DeepSeek-R1背后的技术】系列六:思维链(CoT)
Chain-of-Thought (CoT) 是指模型在输出最后答案之前,会以自然语言的形式生成思路或推理链,使得结果对于人类更具可解释性。例如,在做一道数学题时,模型并不仅仅输出最后的数字,而是像人类自己做题一样,先写下计算或推导过程。早期在 GPT-3.5 等模型上,我们常用提示“Let’s break down the problem step by step”来引导CoT 出现。换句话说,CoT 基于将复杂问题分解为可管理的中间思想的认知策略,这些思想依次导致结论性的答案。
2025-02-08 16:45:36
6462
原创 【DeepSeek-R1背后的技术】系列五:DeepSeek-R1微调指南
微调像 DeepSeek-R1 这样的大型 AI 模型可能需要大量资源,但如果我们能使用正确的工具,依然可以在消费级硬件上进行有效的训练。下面我们来探索如何使用 LoRA(低秩自适应)和 Unsloth 优化 DeepSeek-R1 微调,从而实现更快、更低成本的训练。在这篇博文中,我们将在消费级 GPU 上使用 LoRA(低秩自适应)和 Unsloth 对 DeepSeek-R1 进行微调。
2025-02-08 11:48:17
2503
1
原创 【DeepSeek-R1背后的技术】系列四:本地部署DeepSeek-R1,断网也能畅聊!
我们使用DeepSeek在线服务的时候,经常会遇到服务器忙的情况,非常影响体感和效率。为了解决这个问题,我们部署DeepSeek本地模型,通过Ollama提供API支持、Chatbox提供UI界面,实现断网也能使用DeepSeek!
2025-02-07 22:54:34
579
原创 【DeepSeek-R1背后的技术】系列三:强化学习(Reinforcement Learning, RL)
强化学习(Reinforcement Learning, RL)是一种智能体在与环境互动过程中,通过试错和奖励机制学习如何达成目标的算法。在这个过程中,智能体会不断探索环境,采取行动,并根据环境反馈的奖励或惩罚调整自己的行为策略,最终学习到最优策略。因此,反复实验(trial and error)和延迟奖励(delayed reward)是强化学习最重要的两个特征。
2025-02-05 21:36:31
2002
1
原创 【DeepSeek-R1背后的技术】系列二:大模型知识蒸馏(Knowledge Distillation)
大规模语言模型(LLM)近年来在自然语言处理领域取得了巨大进步,使得人类对话和文本生成成为可能。然而,开源LLM模型由于参数规模较小,性能难以达到商业LLM的水平。知识蒸馏技术可以解决这一问题,它通过利用商业LLM的高性能,将其知识“蒸馏”(Knowledge Distillation,知识蒸馏,简称KD)到更小的开源模型中,从而实现高性能和低成本。
2025-02-04 23:33:52
3076
原创 【DeepSeek-R1背后的技术】系列一:混合专家模型(MoE)
模型规模是提升模型性能的关键因素之一。在有限的计算资源预算下,用更少的训练步数训练一个更大的模型,往往比用更多的步数训练一个较小的模型效果更佳。混合专家模型 (Mixed Expert Models,简称 MoEs) 的一个显著优势是能够在远少于稠密模型所需的计算资源下进行有效的预训练。这意味着在相同的计算预算条件下,可以显著扩大模型或数据集的规模。特别是在预训练阶段,与稠密模型相比,混合专家模型通常能够更快地达到相同的质量水平。那么,究竟什么是一个混合专家模型 (MoE) 呢?
2025-02-03 14:25:33
4369
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人