自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(233)
  • 资源 (2)
  • 收藏
  • 关注

原创 hydra小记(一):深入理解 Hydra:instantiate() 与 get_class() 的区别

在使用 Hydra 进行配置驱动的开发时,我们常常会用到两个实用函数:**hydra.utils.instantiate()** 和 **hydra.utils.get_class()**。虽然它们看起来都与对象的创建有关,但各自的用途和行为有明显区别。下面我们详细解释它们各自的工作模式,并提供示例帮助你在博客中讲解。

2025-04-05 19:39:49 205

原创 论文笔记(七十五)Auto-Encoding Variational Bayes

我们如何在具有连续潜变量的、有向概率模型中进行高效的推断与学习,同时应对后验分布不可解的情况与大规模数据集?我们提出了一种**随机变分推断与学习算法(stochastic variational inference and learning algorithm)**,该算法能够扩展至大规模数据集,并且在满足一些温和的可微性条件下,即使在后验分布不可解的情况下也能正常工作。我们的贡献是双重的。首先,我们展示了对变分下界进行重参数化后,可以得到一个下界估计器,该估计器可以直接使用标准的随机梯度方法进行优化。其次

2025-04-01 17:14:40 660 1

原创 零碎的知识点(十八):边缘似然(Marginal Likelihood)详解

**边缘似然**(也叫**证据**,Evidence)是**在考虑所有可能的参数取值后,观测数据出现的平均概率**。 - **类比**:假设你有一个装有无数枚硬币的袋子,每枚硬币的正面概率\(\theta\)不同。边缘似然就是随机抽一枚硬币,抛5次得到3次正面的**平均概率**。

2025-04-01 02:53:24 894

原创 零碎的知识点(十七):变分推断与Beta分布

**摘要**:变分推断是机器学习中逼近复杂概率分布的强大工具。本文以抛硬币实验为例,结合Beta分布与二项分布,手把手教你如何用变分推断估计硬币正面概率,并提供Python代码实现。无论你是统计新手还是进阶学习者,都能在此找到实用洞见。

2025-04-01 02:13:16 940

原创 论文笔记(七十四)Dense Policy: Bidirectional Autoregressive Learning of Actions

主流的视觉运动策略主要依赖生成模型进行整体动作预测,而当前的自回归策略通过预测下一个标记或片段,表现出次优的结果。这促使人们寻求更有效的学习方法,以释放自回归策略在机器人操作中的潜力。本文提出了一种双向扩展的学习方法,称为Dense Policy,**旨在为动作预测中的自回归策略建立新的范式**。该方法采用轻量级的**仅编码器架构(encoder-only)**,以对数时间推理的方式,从初始单帧迭代展开动作序列,逐步生成目标序列,遵循由粗到细的过程。大量实验验证了我们的Dense Policy在自回归学习能

2025-03-31 20:02:35 820 1

原创 零碎的知识点(十六):ACT(基于Transformer的动作分块)详解

ACT是机器人的“分步计划生成器”。假设机器人要完成“拿水杯→倒水→放下水杯”这一长任务,ACT会将动作分解为多个小段(如每段10步),用Transformer逐段生成,同时确保各段之间的连贯性。 **类比**:写长篇小说时先分章节,再逐章撰写,每章内容参考前文章节。

2025-03-30 00:09:04 753

原创 用 pytorch 从零开始创建大语言模型(三):编码注意力机制

本章内容包括:- 探索在神经网络中使用注意力机制的原因 - 介绍一个基本的自注意力框架,并逐步过渡到增强型自注意力机制 - 实现一个因果注意力模块,使得LLM能够一次生成一个token - 使用dropout随机屏蔽部分注意力权重以减少过拟合 - 将多个因果注意力模块堆叠成一个多头注意力模块 在上一章中,你学习了如何为训练LLM准备输入文本。这包括将文本划分为单词和子词的token,这些token可以被编码为向量表示,即所谓的**嵌入(embeddings)**,供LLM使用。

2025-03-29 22:04:00 837

原创 零碎的知识点(十五):理解条件变分自编码器 Conditional Variational Autoencoders (CVAE):简单原理与数值案例详解

**一句话定义**: 条件变分自编码器(CVAE)是一种生成模型,能够根据给定的条件信息(如标签、文本描述)生成符合特定要求的数据(如图像、文本)。 **类比理解**: 假设你想让画家画一只“戴墨镜的猫”。传统画家(类似普通VAE)自由发挥,而CVAE是“命题画家”——必须按你的要求创作,且能生成多种风格的结果(如卡通猫、写实猫)。

2025-03-28 23:01:36 316

原创 零碎的知识点(十四):“重参数化技巧” 是什么?变分自编码器(VAE)的核心引擎

假设你正在训练一个生成模型(例如变分自编码器,VAE),希望通过神经网络生成逼真的图像。在这个过程中,你需要从某个分布中**随机采样**潜在变量(Latent Variable)来驱动生成过程。但当你尝试直接采样时,会发现一个致命问题:**“随机性”阻断了反向传播的梯度传递**,导致模型无法优化! 这就是 **重参数化技巧(Reparameterization Trick)** 诞生的背景。它被广泛应用于变分自编码器(VAE)、条件变分自编码器(CVAE)、强化学习等领域,是连接概率建模与深度学习的关

2025-03-28 20:09:34 935

原创 零碎的知识点(十三):“自回归策略” 是什么?

自回归策略就像“写作文时,每句话都要参考前面写过的内容”。在人工智能决策中,它指的是一种生成**动作序列**的方法:每一步选择的动作,不仅看当前环境状态,还要参考自己之前已经执行过的动作。**核心思想是“逐步生成,步步为营”**。

2025-03-25 15:51:25 513

原创 用 pytorch 从零开始创建大语言模型(七):根据指示进行微调

本章内容包括:- LLM的指令微调流程 - 为监督式指令微调准备数据集 - 在训练批次中组织指令数据 - 加载预训练LLM并对其进行微调以遵循人类指令 - 提取LLM生成的指令响应用于评估 - 评估一个经过指令微调的LLM

2025-03-25 04:03:00 1082

原创 pytorch小记(十五):pytorch中 交叉熵损失详解:为什么logits比targets多一个维度?

PyTorch交叉熵损失详解:为什么logits比targets多一个维度?

2025-03-25 01:02:20 826

原创 用 pytorch 从零开始创建大语言模型(六):对分类进行微调

本章内容包括: - 介绍不同的LLM微调方法 - 为文本分类准备数据集 - 修改一个预训练的LLM以进行微调 - 微调LLM以识别垃圾信息 - 评估微调后LLM分类器的准确率 - 使用微调后的LLM对新数据进行分类

2025-03-22 18:52:03 1338

原创 用 pytorch 从零开始创建大语言模型(零):汇总

用 pytorch 从零开始创建大语言模型

2025-03-21 21:56:44 563

原创 用 pytorch 从零开始创建大语言模型(五):预训练无标注数据

用 pytorch 从零开始创建大语言模型(五):预训练无标注数据

2025-03-21 21:50:06 1232

原创 论文笔记(七十三)Gemini Robotics: Bringing AI into the Physical World

近年来,大型多模态模型的进步使其在数字领域展现出卓越的通用能力,然而,将这些能力转化为物理代理(如机器人)仍然是一个重大挑战。一般用途的机器人需要能够理解其周围的物理世界,并以熟练且安全的方式与之交互。本报告介绍了一类专门为机器人设计的AI模型家族,并建立在Gemini 2.0的基础之上。我们提出了Gemini Robotics,这是一种先进的**视觉-语言-行动(VLA)通用模型**,能够直接控制机器人。Gemini Robotics能够执行流畅且具备响应性的动作,以应对各种复杂的操作任务,同时能够适应不

2025-03-20 23:17:11 1078 1

原创 用 pytorch 从零开始创建大语言模型(一):理解大型语言模型

用 pytorch 从零开始创建大语言模型(一):理解大型语言模型

2025-03-19 04:35:21 2140

原创 用 pytorch 从零开始创建大语言模型(四):从零开始实现一个用于生成文本的GPT模型

本章内容涵盖:- 编写一个类似GPT的大型语言模型($LLM$),该模型可以被训练以生成类人文本- 归一化层激活值以稳定神经网络训练- 在深度神经网络中添加捷径连接,以更有效地训练模型- 实现Transformer模块以创建不同规模的GPT模型- 计算GPT模型的参数数量及存储需求在上一章中,你学习并实现了多头注意力机制,这是大型语言模型的核心组件之一。在本章中,我们将编写大型语言模型的其他构建模块,并将它们组装成一个类似GPT的模型,随后在下一章中训练该模型以生成类人文本,如图4.1所示。

2025-03-19 01:57:13 888

原创 pytorch小记(十四):pytorch中 nn.Embedding 详解

pytorch小记(十四):pytorch中 nn.Embedding 详解

2025-03-18 20:03:11 862 1

原创 pytorch小记(十三):pytorch中`nn.ModuleList` 详解

pytorch小记(十三):pytorch中`nn.ModuleList` 详解

2025-03-18 03:13:06 1165

原创 pytorch小记(十二):pytorch中 masked_fill_() vs. masked_fill() 详解

pytorch小记(十二):pytorch中 masked_fill_() vs. masked_fill() 详解

2025-03-18 02:45:00 1049

原创 pytorch小记(十一):pytorch中 `torch.nn.Dropout` 详解

pytorch小记(十一):pytorch中 `torch.nn.Dropout` 详解

2025-03-18 02:30:19 842

原创 pytorch小记(十):pytorch中torch.tril 和 torch.triu 详解

pytorch小记(十):pytorch中torch.tril 和 torch.triu 详解

2025-03-18 02:07:25 1089

原创 pytorch小记(九):pytorch中创建指定形状的张量: torch.empty

pytorch小记(九):pytorch中创建指定形状的张量: torch.empty

2025-03-17 19:11:43 446

原创 pytorch小记(八):pytorch中有关于.detach()的浅显见解

pytorch小记(八):pytorch中有关于.detach()的浅显见解

2025-03-16 02:24:45 1013

原创 基于“动手学强化学习”的知识点(六):第 19 章 目标导向的强化学习(gym版本 >= 0.26)

第 19 章 目标导向的强化学习(gym版本 >= 0.26)

2025-03-15 23:28:10 213

原创 基于“动手学强化学习”的知识点(五):第 18 章 离线强化学习(gym版本 >= 0.26)

第 18 章 离线强化学习(gym版本 >= 0.26)(一)

2025-03-15 19:24:34 1118

原创 基于“动手学强化学习”的知识点(四):第 17 章 基于模型的策略优化(gym版本 >= 0.26)

第 17 章 基于模型的策略优化(gym版本 >= 0.26)

2025-03-15 00:57:31 165

原创 基于“动手学强化学习”的知识点(三):第 16 章 模型预测控制(gym版本 >= 0.26)

第 16 章 模型预测控制(gym版本 >= 0.26)

2025-03-14 16:17:56 448

原创 基于“动手学强化学习”的知识点(二):第 15 章 模仿学习(gym版本 >= 0.26)

第 15 章 模仿学习(gym版本 >= 0.26)

2025-03-14 16:15:51 308

原创 基于“动手学强化学习”的知识点(一):第 14 章 SAC 算法(gym版本 >= 0.26)

第 14 章 SAC 算法(gym版本 >= 0.26)

2025-03-14 16:13:04 137

原创 基于“动手学强化学习”的知识点(零):rl_utils库(gym版本 >= 0.26)

rl_utils库

2025-03-14 16:11:43 157

原创 基于“蘑菇书”的强化学习知识点(二十):第十二章的代码:DDPG.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)

第十二章的代码:DDPG.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(四)

2025-03-12 01:13:30 339

原创 基于“蘑菇书”的强化学习知识点(十八):第八章:8.3 方案 3:设计网络架构(一)

第八章:8.3 方案 3:设计网络架构(一)

2025-03-09 17:49:20 688

原创 基于“蘑菇书”的强化学习知识点(十七):第七章的代码:NoisyDQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(四)

第七章的代码:NoisyDQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(四)

2025-03-09 02:45:35 150

原创 基于“蘑菇书”的强化学习知识点(十七):第七章的代码:PER_DQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(三)

第七章的代码:PER_DQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(三)

2025-03-09 01:29:14 228

原创 基于“蘑菇书”的强化学习知识点(十七):第七章的代码:DuelingDQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(二)

第七章的代码:DuelingDQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(二)

2025-03-08 23:22:18 284

原创 基于“蘑菇书”的强化学习知识点(十七):第七章的代码:DoubleDQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(一)

第七章的代码:DoubleDQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)(一)

2025-03-08 22:14:58 496

原创 基于“蘑菇书”的强化学习知识点(十六):第六章的代码:DQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)

第六章的代码:DQN.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)

2025-03-07 18:29:40 223

原创 基于“蘑菇书”的强化学习知识点(十五):第五章的代码:PPO.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)

第五章的代码:PPO.ipynb及其涉及的其他代码的更新以及注解(gym版本 >= 0.26)

2025-03-04 00:43:44 169

UR5机器人的urdf文件

UR5机器人的urdf文件

2021-03-11

UR5机器人所需”贴图“

UR5机器人手臂模型

2021-03-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除