自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(59)
  • 收藏
  • 关注

原创 随笔:当我的 Tokenizer 架构设计与 Google “撞车”之后

把这样一个“死”的模块,挂在一个完全可微的、拥有万亿参数的神经网络(法拉利)前面,像极了在法拉利前面套了一辆马车。但是,当我们回过头看模型的第一步——Tokenizer(分词器)时,却发现它像是一个来自上个世纪的遗留物。虽然去掉了 Tokenizer,但它为了处理字符级输入,Transformer 的 Encoder 变得极其沉重,推理速度慢得让人心碎,根本无法在大规模 LLM 上落地。现有的模型都在死磕“序列”,但在代码生成、或者像中文这样高密度的语言中,字符之间的关系也许本质上就是一个拓扑图。

2025-11-25 19:23:50 363

原创 从零开始构建我们自己的AI大模型第一步:构建BPE分词器。

这周开始,我将会开始一场苏格拉底式的大模型(LLM)构建教学,教大家学会如何构建GPT,Deepseek这样的大模型(当然是缩水版)

2025-11-25 16:52:41 685 1

原创 BPE编码从零开始实现pytorch

变成数字[h, u, g]->get_stats:用zip错位技术,发现(104, 117)出现了。决策:决定把(104, 117)变成256。merge:用while循环和i指针,扫描整个列表:遇到104, 117-> 写入256,跳过两步。遇到其他 -> 照抄,跳过一步。结果:列表变短了[256, 103]。

2025-11-20 18:10:14 676

原创 PyTorch 深度强化学习实战:从零手写 PPO 算法训练你的月球着陆器智能体

很多同学在学习 PPO(Proximal Policy Optimization)时,往往止步于复杂的数学公式。理论看懂了,真要动手写代码时却无从下手。本文不谈晦涩的公式推导,而是聚焦于工程实现。我们将基于 PyTorch,从环境搭建、网络设计(Actor-Critic)、到核心的优势函数计算与 Clip 更新,一步步手写代码,最终训练出一个能完美降落的 LunarLander 智能体。如果你也想拥有“代码级”的算法理解力,这篇教程就是为你准备的。

2025-11-18 16:24:51 945

原创 还没弄懂 PPO?看这一篇就够了:OpenAI 默认算法详解

在深度强化学习(Deep RL)的浩瀚星空中,算法多如牛毛:DQN、DDPG、A3C、SAC......但如果你问任何一位资深的算法工程师:“如果我只想快速把一个新环境跑通,或者要做 RLHF(人类反馈强化学习)来训练大语言模型,我该选哪个算法?”答案几乎永远是同一个:PPO (Proximal Policy Optimization)。

2025-11-17 18:04:52 1242

原创 深度强化学习-Actor-Critic(演员-评论家) 算法详解:从基础理念到 A3C 演进

在深度强化学习的世界里,许多初学者会被一上来的一堆概念搞懵:Q-learning、策略梯度、Actor-Critic、A3C、PPO……仿佛每一个都很重要,但似乎每一个都很难。但如果你想真正理解现代强化学习的核心思想,Actor-Critic 是一条必须走通的主线这篇文章的目标是:用生活化类比解释核心概念,用直觉讲明白原理,用一篇文章让你几乎打通 Actor-Critic 的基础和深层思维。

2025-11-15 16:50:45 900

原创 扩展:Q-Learning 收敛性证明

下面给出(针对有限状态—动作集合、贴现因子、有界奖励)。证明路线遵循“”,并兼顾异步坐标更新的事实。所用到的关键工具是:Bellman 最优算子是范数下的压缩、Robbins–Monro 步长条件、鞅差噪声与异步随机逼近的收敛定理。

2025-11-12 16:47:31 304

原创 强化学习连接 DP 与 MC 的桥梁:时序差分

它学习的是它自己正在执行的那个(带有探索的)策略的价值。

2025-11-12 16:27:45 956 1

原创 自监督学习基石:一文彻底搞懂MOCO算法

在深度学习追求“更大数据、更强模型”的浪潮中,昂贵的人工标注成本始终是一道难题。自监督学习(Self-Supervised Learning)为此而生,旨在让模型从海量无标签数据中自我进化,而其中的“对比学习”更是当今最闪亮的明星。然而,传统的对比学习方法常常受限于巨大的计算资源(尤其是显存)。本文将带你深入探索里程碑式的工作——MOCO (Momentum Contrast)。我们将从最基础的“表示学习”、“对比学习”等概念讲起,循序渐进地剖析MOCO如何巧妙地将学习过程类比为“字典查询”,并最终通过

2025-10-11 13:22:11 1214

原创 VQ-VAE 驾驭离散潜在空间:模型讲解与Pytorch代码解析

VQ-VAE 不仅仅是一个模型,更是一种思想:即在复杂的连续世界中,寻找一种简洁、离散且强大的表示方法。这一思想深刻地影响了后续许多先进生成模型的设计。

2025-09-24 22:32:49 714

原创 标准化流NF公式推导与讲解

摘要:标准化流是一种通过可逆神经网络将简单分布(如高斯分布)变换为复杂分布的深度学习方法。其核心思想基于变量替换公式,利用雅可比行列式校正概率密度变化。通过叠加多层可逆变换结构(如耦合层),在保证高效计算的同时实现复杂分布建模。训练过程采用最大似然估计,直接优化真实数据在模型分布下的对数似然。相比GAN和VAE,标准化流能精确计算似然函数,在生成建模、概率推断等任务中具有独特优势。

2025-09-23 16:41:32 953 1

原创 从清静经出发:现代人生意义与找到自我

《清静经》给现代人寻找人生意义的启示是:​人生的意义,不是一个需要解开的谜题,而是一种需要体验的状态。​

2025-09-20 18:51:27 960 1

原创 从浅入深:自编码器(AE)与变分自编码器(VAE)的核心原理与Pytorch代码讲解

变分自编码器 VAE 是一个里程碑式的模型。它巧妙地将神经网络的强大拟合能力与贝叶斯推断的概率思想结合起来,不仅能学习数据的有效表示,更重要的是打开了深度生成模型的大门。它通过概率编码和 KL 散度约束,构建了一个规整而连续的“灵感空间”,让我们能够真正地从无到有,创造出全新的数据。

2025-09-20 12:47:58 959 1

原创 多模态教科书级指南,堪比“原子弹使用说明书”。一篇顶一年自学,Pytorch从0到1,源码级搭建CLIP-VIT相似图像检索系统,原理教学与代码逐行解析

这个项目是一个基于CLIP  和 ViT 的相似图像检索系统,使用PyTorch从零开始实现。该项目适合用于学习目的,帮助理解图像特征提取和相似度检索的基本原理。我相信大家只要认真看完,绝对大有裨益,不仅可以加深大家的代码能力,更能从原理上让大家理解透彻CLIP这个里程碑级别的多模态模型。

2025-09-17 16:41:11 929 1

原创 打破AI的“标签牢笼”:深入浅出彻底看懂多模态里程碑模型CLIP

CLIP 的出现是多模态领域的里程碑,催生了一系列后续工作和应用:CLIP 最重要的应用之一是作为引导信号。著名的 ​DALL-E 2​ 和 ​Stable Diffusion​ 等文生图模型,都使用 CLIP 的文本编码器来理解用户输入的文字提示,并指导扩散模型生成与之匹配的图像。

2025-09-10 15:41:28 1284

原创 生成式AI基石之一:变分自编码器(VAE)详解:从架构到数学的深度指南

VAE 是一个强大的生成模型。它通过引入概率思想,将编码器从一个确定性的映射转变为一个概率分布的参数化器,并利用重参数化技巧和精心设计的损失函数(重建损失 + KL 散度),成功地构建了一个连续、结构化的潜在空间。这不仅使其能够高质量地压缩和重建数据,更赋予了它从该空间中采样以创造全新数据的能力,为无监督学习和数据生成领域开辟了新的道路。

2025-09-07 17:33:50 2033 1

原创 U-Net 全解析:从网络架构、核心原理到 PyTorch 代码实现

U-Net 是一个非常经典且极其重要的卷积神经网络(CNN)架构。它最初是为了生物医学图像分割而设计的,但由于其特别的设计,如今已经成为各种图像分割任务乃至 AI 图像生成模型(如 Stable Diffusion)的核心组件。

2025-09-06 16:26:18 7760 1

原创 “听音辨人”的数学:ICA(独立变量分析)原理全解析与题目巩固

独立分量分析是一种强大的线性因子模型,它通过在只知道混合信号的情况下,利用源信号的统计独立性和非高斯性,来估计出一个解混矩阵,从而恢复出原始的、独立的源信号。它是解决“盲源分离”问题的利器,与PCA的目标有本质区别,在信号处理、生物医学和数据分析等领域有着深远的影响。

2025-08-27 16:17:45 560

原创 当自回归模型遇上扩散模型:下一代序列预测模型详解与Pytorch实现

今天我们来详细讲解一下用于序列预测的自回归扩散模型 (Autoregressive Diffusion Models)。这个模型结合了两种强大思想:自回归 (Autoregressive, AR) 和 扩散模型 (Diffusion Models, DM),旨在生成高质量、连贯的序列数据。

2025-08-27 14:17:34 1650 1

原创 当经典统计学遇上深度学习:为什么说PPCA和FA是深度学习的必修课?

总结来说, 概率 PCA 和因子分析是理解更高级的深度生成模型的关键垫脚石。PPCA 通过引入各向同性的高斯噪声,为经典 PCA 提供了概率解释,而 FA 则通过一个更灵活的对角噪声模型,允许对数据进行更精细的建模。它们共同的核心思想——通过线性高斯模型连接观测数据和潜在变量——被深度学习模型(如 VAE)继承并发展,通过引入非线性神经网络,极大地扩展了其对复杂数据分布的建模能力。

2025-08-26 15:24:19 843

原创 DeeplabV3+:语义分割集大成者;从浅入深讲解

DeepLab 是由谷歌团队开发的一系列专为任务设计的深度学习模型。语义分割的目标是为图像中的每个像素分配一个类别标签(例如,识别人、车、天空、建筑等)。在理解 DeepLabV3+ 之前,我们先要明白传统卷积神经网络 (CNN) 直接用于语义分割时会遇到什么问题:1.:标准的 CNN(如 VGG, ResNet)为了提取高级语义特征,会包含多个池化层 (Pooling) 或带步长 (stride) 的卷积层。

2025-08-22 17:02:25 1002

原创 空洞卷积(膨胀卷积):深入浅出讲解与实例教学

感受野就是指特征图上的一个像素对应原图多少尺寸的像素:上图是一个普通卷积的过程,卷积核大小为3×3,最后我们的特征图也是3x3(橙色部分),橙色部分一个1x1大小的区域对应了下方3X3的灰色区域,所以这个1x1像素对应的感受野就是3x3关于感受野,我有一点要说明,

2025-08-22 11:44:26 947

原创 FCN网络结构讲解与Pytorch逐行讲解实现

编码器 (基于VGG16) - 定义为独立的模块# FCN分类器这部分代码定义了 FCN-8s 模型的核心骨架,特别是它的编码器(Encoder)部分。它有什么用?简单来说,这段代码的核心作用是“看懂”并“压缩”输入的图像。它构建了一个深度卷积神经网络,用来从原始的像素图像中提取有意义的、层次化的特征。具体来看,它完成了两件事:1.特征提取 (Feature Extraction): 代码中的到模仿了经典的VGG16网络的结构。

2025-08-21 21:27:37 1355

原创 语义分割开山之作:FCN网络从入门到精通

FCN本身可能已经不是当今性能最强的模型,但它所开创的“编码器-解码器”以及“跳跃连接”的范式,已经成为后续几乎所有分割网络设计的标准模板。理解了FCN,就等于拿到了开启现代图像分割大门的钥匙。

2025-08-21 17:31:16 1436

原创 关于转置卷积,你需要知道的是

在卷积神经网络(CNN)中,标准的卷积操作(Convolution)通常会减小输入特征图的空间维度(高度和宽度)。这在图像分类等任务中非常有效,因为它能逐步提取更高级、更抽象的特征,同时减少计算量。然而,在很多其他任务中,我们需要进行相反的操作:将一个低分辨率的特征图放大(Upsampling)到一个更高分辨率的特征图。语义分割(Semantic Segmentation):需要对输入图像的每个像素进行分类,因此最终的输出图必须和原图一样大。生成对抗网络(GANs)

2025-08-20 17:18:30 740

原创 深入浅出概率扩散模型(DDPM):从马尔科夫链到公式推导

今天我们来学习一个在人工智能绘画和生成模型领域非常火热的模型——概率扩散模型(Probabilistic Diffusion Model, DDM)。

2025-08-20 13:29:32 1349 1

原创 它为何是生成式模型的选择?深入浅出标准化流 (Normalizing Flows):从雅可比矩阵到核心原理与实例讲解

在机器学习,尤其是生成模型领域,我们经常想做两件核心的事情:1.密度估计(Density Estimation):给定一个数据点(比如一张图片),计算它出现的概率有多大。这可以用来做异常检测(概率极低的点就是异常点)。2.采样(Sampling):从我们学习到的数据分布中,生成新的、类似的数据点(比如生成一张全新的、不存在的猫的图片)。很多生成模型(比如生成对抗网络 GANs 或变分自编码器 VAEs)在精确计算概率(密度估计)方面存在困难。

2025-08-19 12:18:59 1106

原创 Wasserstein GAN:如何解决GANS训练崩溃,深入浅出数学原理级讲解WGAN与WGAN-GP

今天我们来深入探讨Wasserstein GANs (WGANs),这是生成对抗网络(GANs)发展史上一个里程碑式的改进。它显著提升了原始GAN训练的稳定性,并提供了更有意义的损失度量。我会从基础概念讲起,逐步深入到核心思想和数学细节

2025-08-17 19:54:40 1114

原创 万字长文警告!一次性搞定GAN(生成对抗网络):从浅入深原理级精析 + PyTorch代码逐行讲解实现​

生成对抗网路(GAN, Generative Adversarial Network)的出现,不仅仅是机器学习领域的一项技术突破,更像是在数位世界中点燃了一场创造力革命。它从根本上改变了我们对机器创造能力的认知,为人工智慧、电脑视觉、艺术创作乃至科学研究带来了颠覆性的影响。

2025-08-15 17:22:04 3560

原创 万字长文全解析:五种主流归一化方法深入讲解(BN/LN/IN/GN/WN)

在深度学习中,归一化是一种至关重要的技术,它通过重新调整中间层激活值的分布,来解决训练过程中的各种挑战。不同的归一化方法主要区别在于它们计算均值和方差的维度范围不同。

2025-08-13 23:31:14 1157

原创 kaggle新手入门房价预测:Pytorch代码-超详细基础讲解,保证你看完也会!(网络搭建与训练篇)

在上一篇文章我们已经完全的处理好了数据,数据特征工程的处理需要经验并且也是高手和新手的区别之一,现在我们进入网络搭建,依旧有很多高阶技巧等着大家学习。代码解析依旧分三个步骤:有什么用,为什么要用它,语法如何使用?

2025-08-13 17:27:07 904

原创 kaggle新手入门房价预测:Pytorch代码-超详细基础讲解,保证你看完也会!(数据处理与特征工程篇)

我们的目标是根据房子的信息(如地段、面积等),预测房子的价格。这是一个典型的二元分类问题。这个竞赛分两个部分讲解:一是数据处理与特征工程,二是网络搭建与训练讲解代码分为3个步骤:有什么用,为什么需要他,如何使用。保证大家耐心看完一定大有裨益!如果有懂的可以跳过。现在开始吧!

2025-08-13 15:25:10 1225

原创 溯源YOLOv1:单阶段目标检测的开山之作与数学原理超详细全解析

在YOLOv1论文中,S=7, B=2, C=20 (PASCAL VOC 数据集),所以输出是 7 x 7 x 30 的张量。例如,对于单元格(3,1)的B1框,它对“狗”的得分是 0.98 × 0.95 = 0.931。这个坐标是相对于其所在的网格单元的左上角进行归一化的,值在 [0, 1] 之间。例如,对于狗,可能有一个得分0.93的大框和一个得分0.85的稍微小一点的框。的图片被送入YOLOv1的CNN网络。a. 在剩余的框中,选择得分最高的那个框(比如0.93的狗的框),将它作为最终结果之一。

2025-08-11 17:38:52 1489

原创 何凯明大神封神作之一:MAE模型从浅入深讲解,如何从残缺碎片中补全世界?

可见块表征: 从 Encoder 得到的 (49, 768) 的语义表征。掩码标记 (Mask Tokens): 我们创建 147 个 可学习的共享向量,称为“掩码标记”。它的维度与 Decoder 维度一致,为 (1, 512)。注意:如果 Encoder 和 Decoder 维度不同 (768 vs 512),通常会有一个线性层将 Encoder 的输出从 768 维降到 512 维。2.

2025-08-10 16:50:30 1403

原创 Kaggle 经典竞赛泰坦尼克号:超级无敌爆炸详细基础逐行讲解Pytorch实现代码,看完保证你也会!!!

以上就是我们的整个竞赛流程,但是如果安装标准流程,实际上准确率并不够高,接下来我从几个方向帮助大家后续提高准确率1. 特征工程对于像泰坦尼克号这样的表格类数据问题,特征工程往往是提升模型表现最有效的方法。我们的模型能学到的上限,很大程度上取决于我们喂给它的数据质量。创造更有信息的特征创建FamilySize(家庭大小)SibSp(兄弟姐妹/配偶数) +Parch(父母/子女数) + 1 (自己) =FamilySize。家庭大小可能和生还率有关(例如,独自一人 vs. 小家庭 vs. 大家庭)。

2025-08-06 22:34:32 1176

原创 现代AI大模型核心技术:BERT-从浅入深,小白也能看懂,附实例演示!

在它之前,AI在阅读文本。 在它之后,AI在理解世界。BERT是AI史上的一个里程碑。它首次让机器能够双向、深度地理解语境,改变了自然语言处理领域的格局。它就像AI世界的罗塞塔石碑,被解锁后,便释放出无穷潜力,成为了今天几乎所有高级语言智能应用(从GPT到各类智能助手)的基石和灵感之源。认识BERT,就是认识现代AI的起点。

2025-08-06 16:14:12 981

原创 性能超越Swin-T,却不用注意力机制?ConvNeXt架构全解析(附数据实例演算)

一个1x2x4x4的数据xx->(3x3 深度卷积)->Output_dw(1x2x4x4)Output_dw->->x_ln(1x2x4x4)x_ln->(1x1 卷积, 升维)->x_expanded(1x4x4x4)x_expanded->(GELU)->(1x4x4x4)->(1x1 卷积, 降维)->(1x2x4x4)x->(残差相加)->(1x2x4x4)

2025-08-05 19:43:13 1910 1

原创 Swin-Transformer从浅入深详解

Swin Transformer 的整个架构就是这三大原则的完美体现:分阶段 (Stage) 设计:网络被划分为多个阶段,每个阶段的最后通过 Patch Merging(原则二)来降低分辨率、加深特征,构建层次。阶段内 Block 设计:在每个阶段内部,多个 Transformer Block 成对出现,交替使用 W-MSA(原则一)和 SW-MSA(原则三),在当前尺度下高效地学习局部特征并进行跨窗口的信息融合。最终,Swin Transformer :W-MSA先在自己的窗口内学习。

2025-08-04 17:12:45 1428

原创 LSTM网络从浅入深原理级讲解与Pytorch逐行讲解实现

我们将收集到的索引列表转换回中文字符串,并打印出来与真实标签进行对比。由于我们的数据集和模型都非常小,翻译结果可能不完美,希望大家可以从中学习到LSTM的核心思想。

2025-08-01 15:42:12 1353 1

原创 循环神经网络RNN原理精讲,详细举例!

在了解RNN是什么之前,我们先要明白它解决了什么问题。传统的神经网络,比如我们常见的前馈神经网络(Feedforward Neural Network)或者卷积神经网络(CNN),它们有一个共同的特点:输入之间是相互独立的。你给它一张猫的图片,它判断是猫。再给它一张狗的图片,它判断是狗。这两个判断过程互不影响。前一次的输入和输出,对后一次的判断没有任何帮助。这在很多场景下是没问题的。"今天天气很好,我心情也很___。" 空格里很可能填“好”或“不错”。这个推断依赖于前面的“天气很好”。

2025-07-31 20:03:07 1083 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除