- 博客(233)
- 资源 (2)
- 收藏
- 关注
原创 hydra小记(一):深入理解 Hydra:instantiate() 与 get_class() 的区别
在使用 Hydra 进行配置驱动的开发时,我们常常会用到两个实用函数:**hydra.utils.instantiate()** 和 **hydra.utils.get_class()**。虽然它们看起来都与对象的创建有关,但各自的用途和行为有明显区别。下面我们详细解释它们各自的工作模式,并提供示例帮助你在博客中讲解。
2025-04-05 19:39:49
205
原创 论文笔记(七十五)Auto-Encoding Variational Bayes
我们如何在具有连续潜变量的、有向概率模型中进行高效的推断与学习,同时应对后验分布不可解的情况与大规模数据集?我们提出了一种**随机变分推断与学习算法(stochastic variational inference and learning algorithm)**,该算法能够扩展至大规模数据集,并且在满足一些温和的可微性条件下,即使在后验分布不可解的情况下也能正常工作。我们的贡献是双重的。首先,我们展示了对变分下界进行重参数化后,可以得到一个下界估计器,该估计器可以直接使用标准的随机梯度方法进行优化。其次
2025-04-01 17:14:40
660
1
原创 零碎的知识点(十八):边缘似然(Marginal Likelihood)详解
**边缘似然**(也叫**证据**,Evidence)是**在考虑所有可能的参数取值后,观测数据出现的平均概率**。 - **类比**:假设你有一个装有无数枚硬币的袋子,每枚硬币的正面概率\(\theta\)不同。边缘似然就是随机抽一枚硬币,抛5次得到3次正面的**平均概率**。
2025-04-01 02:53:24
894
原创 零碎的知识点(十七):变分推断与Beta分布
**摘要**:变分推断是机器学习中逼近复杂概率分布的强大工具。本文以抛硬币实验为例,结合Beta分布与二项分布,手把手教你如何用变分推断估计硬币正面概率,并提供Python代码实现。无论你是统计新手还是进阶学习者,都能在此找到实用洞见。
2025-04-01 02:13:16
940
原创 论文笔记(七十四)Dense Policy: Bidirectional Autoregressive Learning of Actions
主流的视觉运动策略主要依赖生成模型进行整体动作预测,而当前的自回归策略通过预测下一个标记或片段,表现出次优的结果。这促使人们寻求更有效的学习方法,以释放自回归策略在机器人操作中的潜力。本文提出了一种双向扩展的学习方法,称为Dense Policy,**旨在为动作预测中的自回归策略建立新的范式**。该方法采用轻量级的**仅编码器架构(encoder-only)**,以对数时间推理的方式,从初始单帧迭代展开动作序列,逐步生成目标序列,遵循由粗到细的过程。大量实验验证了我们的Dense Policy在自回归学习能
2025-03-31 20:02:35
820
1
原创 零碎的知识点(十六):ACT(基于Transformer的动作分块)详解
ACT是机器人的“分步计划生成器”。假设机器人要完成“拿水杯→倒水→放下水杯”这一长任务,ACT会将动作分解为多个小段(如每段10步),用Transformer逐段生成,同时确保各段之间的连贯性。 **类比**:写长篇小说时先分章节,再逐章撰写,每章内容参考前文章节。
2025-03-30 00:09:04
753
原创 用 pytorch 从零开始创建大语言模型(三):编码注意力机制
本章内容包括:- 探索在神经网络中使用注意力机制的原因 - 介绍一个基本的自注意力框架,并逐步过渡到增强型自注意力机制 - 实现一个因果注意力模块,使得LLM能够一次生成一个token - 使用dropout随机屏蔽部分注意力权重以减少过拟合 - 将多个因果注意力模块堆叠成一个多头注意力模块 在上一章中,你学习了如何为训练LLM准备输入文本。这包括将文本划分为单词和子词的token,这些token可以被编码为向量表示,即所谓的**嵌入(embeddings)**,供LLM使用。
2025-03-29 22:04:00
837
原创 零碎的知识点(十五):理解条件变分自编码器 Conditional Variational Autoencoders (CVAE):简单原理与数值案例详解
**一句话定义**: 条件变分自编码器(CVAE)是一种生成模型,能够根据给定的条件信息(如标签、文本描述)生成符合特定要求的数据(如图像、文本)。 **类比理解**: 假设你想让画家画一只“戴墨镜的猫”。传统画家(类似普通VAE)自由发挥,而CVAE是“命题画家”——必须按你的要求创作,且能生成多种风格的结果(如卡通猫、写实猫)。
2025-03-28 23:01:36
316
原创 零碎的知识点(十四):“重参数化技巧” 是什么?变分自编码器(VAE)的核心引擎
假设你正在训练一个生成模型(例如变分自编码器,VAE),希望通过神经网络生成逼真的图像。在这个过程中,你需要从某个分布中**随机采样**潜在变量(Latent Variable)来驱动生成过程。但当你尝试直接采样时,会发现一个致命问题:**“随机性”阻断了反向传播的梯度传递**,导致模型无法优化! 这就是 **重参数化技巧(Reparameterization Trick)** 诞生的背景。它被广泛应用于变分自编码器(VAE)、条件变分自编码器(CVAE)、强化学习等领域,是连接概率建模与深度学习的关
2025-03-28 20:09:34
935
原创 零碎的知识点(十三):“自回归策略” 是什么?
自回归策略就像“写作文时,每句话都要参考前面写过的内容”。在人工智能决策中,它指的是一种生成**动作序列**的方法:每一步选择的动作,不仅看当前环境状态,还要参考自己之前已经执行过的动作。**核心思想是“逐步生成,步步为营”**。
2025-03-25 15:51:25
513
原创 用 pytorch 从零开始创建大语言模型(七):根据指示进行微调
本章内容包括:- LLM的指令微调流程 - 为监督式指令微调准备数据集 - 在训练批次中组织指令数据 - 加载预训练LLM并对其进行微调以遵循人类指令 - 提取LLM生成的指令响应用于评估 - 评估一个经过指令微调的LLM
2025-03-25 04:03:00
1082
原创 pytorch小记(十五):pytorch中 交叉熵损失详解:为什么logits比targets多一个维度?
PyTorch交叉熵损失详解:为什么logits比targets多一个维度?
2025-03-25 01:02:20
826
原创 用 pytorch 从零开始创建大语言模型(六):对分类进行微调
本章内容包括: - 介绍不同的LLM微调方法 - 为文本分类准备数据集 - 修改一个预训练的LLM以进行微调 - 微调LLM以识别垃圾信息 - 评估微调后LLM分类器的准确率 - 使用微调后的LLM对新数据进行分类
2025-03-22 18:52:03
1338
原创 论文笔记(七十三)Gemini Robotics: Bringing AI into the Physical World
近年来,大型多模态模型的进步使其在数字领域展现出卓越的通用能力,然而,将这些能力转化为物理代理(如机器人)仍然是一个重大挑战。一般用途的机器人需要能够理解其周围的物理世界,并以熟练且安全的方式与之交互。本报告介绍了一类专门为机器人设计的AI模型家族,并建立在Gemini 2.0的基础之上。我们提出了Gemini Robotics,这是一种先进的**视觉-语言-行动(VLA)通用模型**,能够直接控制机器人。Gemini Robotics能够执行流畅且具备响应性的动作,以应对各种复杂的操作任务,同时能够适应不
2025-03-20 23:17:11
1078
1
原创 用 pytorch 从零开始创建大语言模型(四):从零开始实现一个用于生成文本的GPT模型
本章内容涵盖:- 编写一个类似GPT的大型语言模型($LLM$),该模型可以被训练以生成类人文本- 归一化层激活值以稳定神经网络训练- 在深度神经网络中添加捷径连接,以更有效地训练模型- 实现Transformer模块以创建不同规模的GPT模型- 计算GPT模型的参数数量及存储需求在上一章中,你学习并实现了多头注意力机制,这是大型语言模型的核心组件之一。在本章中,我们将编写大型语言模型的其他构建模块,并将它们组装成一个类似GPT的模型,随后在下一章中训练该模型以生成类人文本,如图4.1所示。
2025-03-19 01:57:13
888
原创 pytorch小记(十四):pytorch中 nn.Embedding 详解
pytorch小记(十四):pytorch中 nn.Embedding 详解
2025-03-18 20:03:11
862
1
原创 pytorch小记(十三):pytorch中`nn.ModuleList` 详解
pytorch小记(十三):pytorch中`nn.ModuleList` 详解
2025-03-18 03:13:06
1165
原创 pytorch小记(十二):pytorch中 masked_fill_() vs. masked_fill() 详解
pytorch小记(十二):pytorch中 masked_fill_() vs. masked_fill() 详解
2025-03-18 02:45:00
1049
原创 pytorch小记(十一):pytorch中 `torch.nn.Dropout` 详解
pytorch小记(十一):pytorch中 `torch.nn.Dropout` 详解
2025-03-18 02:30:19
842
原创 pytorch小记(十):pytorch中torch.tril 和 torch.triu 详解
pytorch小记(十):pytorch中torch.tril 和 torch.triu 详解
2025-03-18 02:07:25
1089
原创 pytorch小记(九):pytorch中创建指定形状的张量: torch.empty
pytorch小记(九):pytorch中创建指定形状的张量: torch.empty
2025-03-17 19:11:43
446
原创 pytorch小记(八):pytorch中有关于.detach()的浅显见解
pytorch小记(八):pytorch中有关于.detach()的浅显见解
2025-03-16 02:24:45
1013
原创 基于“动手学强化学习”的知识点(六):第 19 章 目标导向的强化学习(gym版本 >= 0.26)
第 19 章 目标导向的强化学习(gym版本 >= 0.26)
2025-03-15 23:28:10
213
原创 基于“动手学强化学习”的知识点(五):第 18 章 离线强化学习(gym版本 >= 0.26)
第 18 章 离线强化学习(gym版本 >= 0.26)(一)
2025-03-15 19:24:34
1118
原创 基于“动手学强化学习”的知识点(四):第 17 章 基于模型的策略优化(gym版本 >= 0.26)
第 17 章 基于模型的策略优化(gym版本 >= 0.26)
2025-03-15 00:57:31
165
原创 基于“动手学强化学习”的知识点(三):第 16 章 模型预测控制(gym版本 >= 0.26)
第 16 章 模型预测控制(gym版本 >= 0.26)
2025-03-14 16:17:56
448
原创 基于“动手学强化学习”的知识点(一):第 14 章 SAC 算法(gym版本 >= 0.26)
第 14 章 SAC 算法(gym版本 >= 0.26)
2025-03-14 16:13:04
137
原创 基于“蘑菇书”的强化学习知识点(二十):第十二章的代码:DDPG.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)
第十二章的代码:DDPG.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(四)
2025-03-12 01:13:30
339
原创 基于“蘑菇书”的强化学习知识点(十七):第七章的代码:NoisyDQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(四)
第七章的代码:NoisyDQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(四)
2025-03-09 02:45:35
150
原创 基于“蘑菇书”的强化学习知识点(十七):第七章的代码:PER_DQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(三)
第七章的代码:PER_DQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(三)
2025-03-09 01:29:14
228
原创 基于“蘑菇书”的强化学习知识点(十七):第七章的代码:DuelingDQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(二)
第七章的代码:DuelingDQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(二)
2025-03-08 23:22:18
284
原创 基于“蘑菇书”的强化学习知识点(十七):第七章的代码:DoubleDQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(一)
第七章的代码:DoubleDQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(一)
2025-03-08 22:14:58
496
原创 基于“蘑菇书”的强化学习知识点(十六):第六章的代码:DQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)
第六章的代码:DQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)
2025-03-07 18:29:40
223
原创 基于“蘑菇书”的强化学习知识点(十五):第五章的代码:PPO.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)
第五章的代码:PPO.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)
2025-03-04 00:43:44
169
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人