Deepmindyu-优快云博客

原创随笔：当我的 Tokenizer 架构设计与 Google “撞车”之后

把这样一个“死”的模块，挂在一个完全可微的、拥有万亿参数的神经网络（法拉利）前面，像极了在法拉利前面套了一辆马车。但是，当我们回过头看模型的第一步——Tokenizer（分词器）时，却发现它像是一个来自上个世纪的遗留物。虽然去掉了 Tokenizer，但它为了处理字符级输入，Transformer 的 Encoder 变得极其沉重，推理速度慢得让人心碎，根本无法在大规模 LLM 上落地。现有的模型都在死磕“序列”，但在代码生成、或者像中文这样高密度的语言中，字符之间的关系也许本质上就是一个拓扑图。

2025-11-25 19:23:50 363

原创从零开始构建我们自己的AI大模型第一步：构建BPE分词器。

这周开始，我将会开始一场苏格拉底式的大模型（LLM）构建教学，教大家学会如何构建GPT,Deepseek这样的大模型（当然是缩水版）

2025-11-25 16:52:41 837 1

原创 BPE编码从零开始实现pytorch

变成数字[h, u, g]->get_stats：用zip错位技术，发现(104, 117)出现了。决策：决定把(104, 117)变成256。merge：用while循环和i指针，扫描整个列表：遇到104, 117-> 写入256，跳过两步。遇到其他 -> 照抄，跳过一步。结果：列表变短了[256, 103]。

2025-11-20 18:10:14 676

原创 PyTorch 深度强化学习实战：从零手写 PPO 算法训练你的月球着陆器智能体

很多同学在学习 PPO（Proximal Policy Optimization）时，往往止步于复杂的数学公式。理论看懂了，真要动手写代码时却无从下手。本文不谈晦涩的公式推导，而是聚焦于工程实现。我们将基于 PyTorch，从环境搭建、网络设计（Actor-Critic）、到核心的优势函数计算与 Clip 更新，一步步手写代码，最终训练出一个能完美降落的 LunarLander 智能体。如果你也想拥有“代码级”的算法理解力，这篇教程就是为你准备的。

2025-11-18 16:24:51 945

原创还没弄懂 PPO？看这一篇就够了：OpenAI 默认算法详解

在深度强化学习（Deep RL）的浩瀚星空中，算法多如牛毛：DQN、DDPG、A3C、SAC......但如果你问任何一位资深的算法工程师：“如果我只想快速把一个新环境跑通，或者要做 RLHF（人类反馈强化学习）来训练大语言模型，我该选哪个算法？”答案几乎永远是同一个：PPO (Proximal Policy Optimization)。

2025-11-17 18:04:52 1242

原创深度强化学习-Actor-Critic（演员-评论家）算法详解：从基础理念到 A3C 演进

在深度强化学习的世界里，许多初学者会被一上来的一堆概念搞懵：Q-learning、策略梯度、Actor-Critic、A3C、PPO……仿佛每一个都很重要，但似乎每一个都很难。但如果你想真正理解现代强化学习的核心思想，Actor-Critic 是一条必须走通的主线这篇文章的目标是：用生活化类比解释核心概念，用直觉讲明白原理，用一篇文章让你几乎打通 Actor-Critic 的基础和深层思维。

2025-11-15 16:50:45 900

原创扩展：Q-Learning 收敛性证明

下面给出（针对有限状态—动作集合、贴现因子、有界奖励）。证明路线遵循“”，并兼顾异步坐标更新的事实。所用到的关键工具是：Bellman 最优算子是范数下的压缩、Robbins–Monro 步长条件、鞅差噪声与异步随机逼近的收敛定理。

2025-11-12 16:47:31 304

原创强化学习连接 DP 与 MC 的桥梁：时序差分

它学习的是它自己正在执行的那个（带有探索的）策略的价值。

2025-11-12 16:27:45 956 1

原创自监督学习基石：一文彻底搞懂MOCO算法

在深度学习追求“更大数据、更强模型”的浪潮中，昂贵的人工标注成本始终是一道难题。自监督学习（Self-Supervised Learning）为此而生，旨在让模型从海量无标签数据中自我进化，而其中的“对比学习”更是当今最闪亮的明星。然而，传统的对比学习方法常常受限于巨大的计算资源（尤其是显存）。本文将带你深入探索里程碑式的工作——MOCO (Momentum Contrast)。我们将从最基础的“表示学习”、“对比学习”等概念讲起，循序渐进地剖析MOCO如何巧妙地将学习过程类比为“字典查询”，并最终通过

2025-10-11 13:22:11 1214

原创 VQ-VAE 驾驭离散潜在空间：模型讲解与Pytorch代码解析

VQ-VAE 不仅仅是一个模型，更是一种思想：即在复杂的连续世界中，寻找一种简洁、离散且强大的表示方法。这一思想深刻地影响了后续许多先进生成模型的设计。

2025-09-24 22:32:49 714

原创标准化流NF公式推导与讲解

摘要：标准化流是一种通过可逆神经网络将简单分布（如高斯分布）变换为复杂分布的深度学习方法。其核心思想基于变量替换公式，利用雅可比行列式校正概率密度变化。通过叠加多层可逆变换结构（如耦合层），在保证高效计算的同时实现复杂分布建模。训练过程采用最大似然估计，直接优化真实数据在模型分布下的对数似然。相比GAN和VAE，标准化流能精确计算似然函数，在生成建模、概率推断等任务中具有独特优势。

2025-09-23 16:41:32 953 1

原创从清静经出发：现代人生意义与找到自我

《清静经》给现代人寻找人生意义的启示是：人生的意义，不是一个需要解开的谜题，而是一种需要体验的状态。

2025-09-20 18:51:27 960 1

原创从浅入深：自编码器(AE)与变分自编码器(VAE)的核心原理与Pytorch代码讲解

变分自编码器 VAE 是一个里程碑式的模型。它巧妙地将神经网络的强大拟合能力与贝叶斯推断的概率思想结合起来，不仅能学习数据的有效表示，更重要的是打开了深度生成模型的大门。它通过概率编码和 KL 散度约束，构建了一个规整而连续的“灵感空间”，让我们能够真正地从无到有，创造出全新的数据。

2025-09-20 12:47:58 959 1

原创多模态教科书级指南，堪比“原子弹使用说明书”。一篇顶一年自学，Pytorch从0到1，源码级搭建CLIP-VIT相似图像检索系统，原理教学与代码逐行解析

这个项目是一个基于CLIP 和 ViT 的相似图像检索系统，使用PyTorch从零开始实现。该项目适合用于学习目的，帮助理解图像特征提取和相似度检索的基本原理。我相信大家只要认真看完，绝对大有裨益，不仅可以加深大家的代码能力，更能从原理上让大家理解透彻CLIP这个里程碑级别的多模态模型。

2025-09-17 16:41:11 929 1

原创打破AI的“标签牢笼”：深入浅出彻底看懂多模态里程碑模型CLIP

CLIP 的出现是多模态领域的里程碑，催生了一系列后续工作和应用：CLIP 最重要的应用之一是作为引导信号。著名的 DALL-E 2 和 Stable Diffusion 等文生图模型，都使用 CLIP 的文本编码器来理解用户输入的文字提示，并指导扩散模型生成与之匹配的图像。

2025-09-10 15:41:28 1284

原创生成式AI基石之一:变分自编码器（VAE）详解：从架构到数学的深度指南

VAE 是一个强大的生成模型。它通过引入概率思想，将编码器从一个确定性的映射转变为一个概率分布的参数化器，并利用重参数化技巧和精心设计的损失函数（重建损失 + KL 散度），成功地构建了一个连续、结构化的潜在空间。这不仅使其能够高质量地压缩和重建数据，更赋予了它从该空间中采样以创造全新数据的能力，为无监督学习和数据生成领域开辟了新的道路。

2025-09-07 17:33:50 2033 1

原创 U-Net 全解析：从网络架构、核心原理到 PyTorch 代码实现

U-Net 是一个非常经典且极其重要的卷积神经网络（CNN）架构。它最初是为了生物医学图像分割而设计的，但由于其特别的设计，如今已经成为各种图像分割任务乃至 AI 图像生成模型（如 Stable Diffusion）的核心组件。

2025-09-06 16:26:18 7760 1

原创 “听音辨人”的数学：ICA（独立变量分析）原理全解析与题目巩固

独立分量分析是一种强大的线性因子模型，它通过在只知道混合信号的情况下，利用源信号的统计独立性和非高斯性，来估计出一个解混矩阵，从而恢复出原始的、独立的源信号。它是解决“盲源分离”问题的利器，与PCA的目标有本质区别，在信号处理、生物医学和数据分析等领域有着深远的影响。

2025-08-27 16:17:45 560

原创当自回归模型遇上扩散模型：下一代序列预测模型详解与Pytorch实现

今天我们来详细讲解一下用于序列预测的自回归扩散模型 (Autoregressive Diffusion Models)。这个模型结合了两种强大思想：自回归 (Autoregressive, AR) 和扩散模型 (Diffusion Models, DM)，旨在生成高质量、连贯的序列数据。

2025-08-27 14:17:34 1650 1

原创当经典统计学遇上深度学习：为什么说PPCA和FA是深度学习的必修课？

总结来说，概率 PCA 和因子分析是理解更高级的深度生成模型的关键垫脚石。PPCA 通过引入各向同性的高斯噪声，为经典 PCA 提供了概率解释，而 FA 则通过一个更灵活的对角噪声模型，允许对数据进行更精细的建模。它们共同的核心思想——通过线性高斯模型连接观测数据和潜在变量——被深度学习模型（如 VAE）继承并发展，通过引入非线性神经网络，极大地扩展了其对复杂数据分布的建模能力。

2025-08-26 15:24:19 843

原创 DeeplabV3+：语义分割集大成者；从浅入深讲解

DeepLab 是由谷歌团队开发的一系列专为任务设计的深度学习模型。语义分割的目标是为图像中的每个像素分配一个类别标签（例如，识别人、车、天空、建筑等）。在理解 DeepLabV3+ 之前，我们先要明白传统卷积神经网络 (CNN) 直接用于语义分割时会遇到什么问题：1.：标准的 CNN（如 VGG, ResNet）为了提取高级语义特征，会包含多个池化层 (Pooling) 或带步长 (stride) 的卷积层。

2025-08-22 17:02:25 1002

原创空洞卷积（膨胀卷积）:深入浅出讲解与实例教学

感受野就是指特征图上的一个像素对应原图多少尺寸的像素：上图是一个普通卷积的过程，卷积核大小为3×3，最后我们的特征图也是3x3（橙色部分），橙色部分一个1x1大小的区域对应了下方3X3的灰色区域，所以这个1x1像素对应的感受野就是3x3关于感受野，我有一点要说明，

2025-08-22 11:44:26 947

原创 FCN网络结构讲解与Pytorch逐行讲解实现

编码器 (基于VGG16) - 定义为独立的模块# FCN分类器这部分代码定义了 FCN-8s 模型的核心骨架，特别是它的编码器（Encoder）部分。它有什么用？简单来说，这段代码的核心作用是“看懂”并“压缩”输入的图像。它构建了一个深度卷积神经网络，用来从原始的像素图像中提取有意义的、层次化的特征。具体来看，它完成了两件事：1.特征提取 (Feature Extraction): 代码中的到模仿了经典的VGG16网络的结构。

2025-08-21 21:27:37 1355

原创语义分割开山之作：FCN网络从入门到精通

FCN本身可能已经不是当今性能最强的模型，但它所开创的“编码器-解码器”以及“跳跃连接”的范式，已经成为后续几乎所有分割网络设计的标准模板。理解了FCN，就等于拿到了开启现代图像分割大门的钥匙。

2025-08-21 17:31:16 1436

原创关于转置卷积，你需要知道的是

在卷积神经网络（CNN）中，标准的卷积操作（Convolution）通常会减小输入特征图的空间维度（高度和宽度）。这在图像分类等任务中非常有效，因为它能逐步提取更高级、更抽象的特征，同时减少计算量。然而，在很多其他任务中，我们需要进行相反的操作：将一个低分辨率的特征图放大（Upsampling）到一个更高分辨率的特征图。语义分割（Semantic Segmentation）：需要对输入图像的每个像素进行分类，因此最终的输出图必须和原图一样大。生成对抗网络（GANs）

2025-08-20 17:18:30 740

原创深入浅出概率扩散模型（DDPM）：从马尔科夫链到公式推导

今天我们来学习一个在人工智能绘画和生成模型领域非常火热的模型——概率扩散模型（Probabilistic Diffusion Model, DDM）。

2025-08-20 13:29:32 1349 1

原创它为何是生成式模型的选择？深入浅出标准化流 (Normalizing Flows)：从雅可比矩阵到核心原理与实例讲解

在机器学习，尤其是生成模型领域，我们经常想做两件核心的事情：1.密度估计（Density Estimation）：给定一个数据点（比如一张图片），计算它出现的概率有多大。这可以用来做异常检测（概率极低的点就是异常点）。2.采样（Sampling）：从我们学习到的数据分布中，生成新的、类似的数据点（比如生成一张全新的、不存在的猫的图片）。很多生成模型（比如生成对抗网络 GANs 或变分自编码器 VAEs）在精确计算概率（密度估计）方面存在困难。

2025-08-19 12:18:59 1106

原创 Wasserstein GAN：如何解决GANS训练崩溃，深入浅出数学原理级讲解WGAN与WGAN-GP

今天我们来深入探讨Wasserstein GANs (WGANs)，这是生成对抗网络（GANs）发展史上一个里程碑式的改进。它显著提升了原始GAN训练的稳定性，并提供了更有意义的损失度量。我会从基础概念讲起，逐步深入到核心思想和数学细节

2025-08-17 19:54:40 1114

原创万字长文警告！一次性搞定GAN（生成对抗网络）：从浅入深原理级精析 + PyTorch代码逐行讲解实现

生成对抗网路（GAN, Generative Adversarial Network）的出现，不仅仅是机器学习领域的一项技术突破，更像是在数位世界中点燃了一场创造力革命。它从根本上改变了我们对机器创造能力的认知，为人工智慧、电脑视觉、艺术创作乃至科学研究带来了颠覆性的影响。

2025-08-15 17:22:04 3560

原创万字长文全解析：五种主流归一化方法深入讲解(BN/LN/IN/GN/WN)

在深度学习中，归一化是一种至关重要的技术，它通过重新调整中间层激活值的分布，来解决训练过程中的各种挑战。不同的归一化方法主要区别在于它们计算均值和方差的维度范围不同。

2025-08-13 23:31:14 1157

原创 kaggle新手入门房价预测：Pytorch代码-超详细基础讲解，保证你看完也会！（网络搭建与训练篇）

在上一篇文章我们已经完全的处理好了数据，数据特征工程的处理需要经验并且也是高手和新手的区别之一，现在我们进入网络搭建，依旧有很多高阶技巧等着大家学习。代码解析依旧分三个步骤：有什么用，为什么要用它，语法如何使用？

2025-08-13 17:27:07 904

原创 kaggle新手入门房价预测：Pytorch代码-超详细基础讲解，保证你看完也会！（数据处理与特征工程篇）

我们的目标是根据房子的信息（如地段、面积等），预测房子的价格。这是一个典型的二元分类问题。这个竞赛分两个部分讲解：一是数据处理与特征工程，二是网络搭建与训练讲解代码分为3个步骤：有什么用，为什么需要他，如何使用。保证大家耐心看完一定大有裨益！如果有懂的可以跳过。现在开始吧！

2025-08-13 15:25:10 1225

原创溯源YOLOv1：单阶段目标检测的开山之作与数学原理超详细全解析

在YOLOv1论文中，S=7, B=2, C=20 (PASCAL VOC 数据集)，所以输出是 7 x 7 x 30 的张量。例如，对于单元格(3,1)的B1框，它对“狗”的得分是 0.98 × 0.95 = 0.931。这个坐标是相对于其所在的网格单元的左上角进行归一化的，值在 [0, 1] 之间。例如，对于狗，可能有一个得分0.93的大框和一个得分0.85的稍微小一点的框。的图片被送入YOLOv1的CNN网络。a. 在剩余的框中，选择得分最高的那个框（比如0.93的狗的框），将它作为最终结果之一。

2025-08-11 17:38:52 1489

空空如也

空空如也