夜幕龙-优快云博客

原创深度生成模型（六）——GAN 简单项目实战 StyleGAN on CelebA

使用 PyTorch 实现了一个简化版的 StyleGAN 模型，对 CelebA 数据集进行训练，并生成新的人脸图像

2025-03-08 14:35:35 748

原创深度生成模型（五）——生成对抗网络 GAN

如何克服VAE模型的这些局限性呢？一种有效的策略是采用生成对抗网络（GAN）模型，其在图像生成领域通常能够提供更高质量的输出。GAN通过生成器与判别器之间的对抗训练，使生成器不断提升生成样本与真实数据之间的相似性，同时实现样本多样性的有效保持生成对抗网络（Generative Adversarial Network, GAN）通过两个神经网络——生成器（Generator）和判别器（Discriminator）之间的对抗训练，实现高质量样本的生成

2025-03-08 14:32:07 1170

原创深度生成模型（四）——VAE 简单项目实战 VAE on CelebA

用 VAE 做一个简单的人脸图像生成任务使用 PyTorch 训练一个基于 VAE 的模型，对 CelebA 数据集进行训练，并生成新的人脸图像

2025-03-03 20:54:53 1218

原创深度生成模型（三）——变分自编码器 VAE

生成式模型的基础模型主要有两种：变分自编码器（Variational Auto-Encoder, VAE）和生成对抗网络（Generative Adversari Network, GAN）VAE 通过引入隐变量z来捕捉数据的潜在结构，并利用变分推断方法来近似计算数据的似然。其目标是最大化变分下界（Evidence Lower Bound, ELBO）GAN 由生成器G和判别器D其训练过程通常采用交替优化的方式。

2025-03-03 20:53:46 923

原创深度生成模型（二）——基本概念与数学建模

上一篇笔记中提到了端到端模型底层核心采用了深度生成模型，先简单梳理一下生成式人工智能（Artificial Intelligence Generated Content，AIGC）经历了从早期基于概率模型和规则系统的方法到现代深度生成模型的跨越式发展。

2025-02-27 22:59:33 1916

原创深度生成模型（一）——具身智能综述与算法分类简介

具身智能对于机器人的控制可以分为端到端模型和非端到端模型

2025-02-27 22:58:26 783

原创 ViT 模型介绍（三）——简单实战项目

用 ViT 做一个简单的图像分类任务在数据集上进行图像分类。通过 Hugging Face 的 transformers 库，加载一个预训练的 ViT 模型，并使用 PyTorch 进行微调。通过训练模型，评估测试集上的准确性，并可视化部分预测结果可以将此方法应用到其他数据集或任务上，只需调整数据加载部分以及输出类别数。

2025-02-24 23:57:25 1373 1

原创 ViT 模型介绍（二）——模型架构

ViT 是一个基于 Transformer 架构的计算机视觉模型，它将 Transformer 直接应用于图像分类任务，跳脱了传统卷积神经网络（CNN）的框架ViT的核心思想是将图像转化为一维的序列数据，并将其输入到Transformer中进行处理，最终进行分类。以下是ViT模型的详细架构解析

2025-02-24 23:56:59 1015

原创 ViT 模型介绍（一）——综述

机器人所采用的大模型均为多模态大模型，输入至少为视觉图像及末端笛卡尔坐标系位姿，因此 ViT 算是基础模型之一在计算机视觉领域，是由谷歌团队于2020年提出的一个革命性研究成果，它成功挑战了自2012年AlexNet提出以来，卷积神经网络（CNN）在视觉任务中的主导地位ViT 的核心创新在于将 Transformer 模型直接应用于图像处理任务，彻底打破了传统计算机视觉中依赖卷积神经网络的惯例ViT的引入对计算机视觉与自然语言处理的融合起到了催化作用

2025-02-23 12:05:50 1253

原创 Transformer 模型介绍（六）——残差连接、线性层与损失函数

残差连接的核心思想是跳跃连接，即直接将某一层的输入x加上其输出f(x)，并作为该层的最终输出。这样，即使网络变得非常深，网络的效果也不会比浅层网络差简言之，残差连接通过保持信息流动，使得网络更容易训练，并能在深层网络中保持较好的性能这种结构的优势在于，它能够帮助网络保持稳定的梯度流动，避免深层网络的退化问题。

2025-02-23 11:53:11 737

原创 Transformer 模型介绍（五）——归一化 Add & Norm

Transformer模型的编码器和解码器都由6层神经网络堆叠而成。随着网络深度的增加，梯度消失和梯度爆炸问题的风险也会增加，尤其是在深度网络的训练过程中，梯度的传播可能变得非常不稳定为了解决这些问题，归一化（Normalization）被广泛应用于深度学习模型中，尤其是层归一化（Layer Normalization），它能够有效地稳定训练过程，确保模型顺利收敛

2025-02-16 10:35:29 955

原创 Transformer 模型介绍（四）——编码器 Encoder 和解码器 Decoder

上篇中讲完了自注意力机制 Self-Attention 和多头注意力机制 Multi-Head Attention，这是 Transformer 核心组成部分之一，在此基础上，进一步展开讲一下编码器-解码器结构（Encoder-Decoder Architecture）

2025-02-16 00:29:56 3520

原创 Transformer 模型介绍（三）——自注意力机制 Self-Attention

在本篇文章中，我们将逐步深入探讨 Transformer 模型的架构，以机器翻译任务为例，输入是一种语言的句子，输出是另一种语言的句子。我们将从整体架构入手，逐步拆解模型的各个组件

2025-02-15 17:25:24 1506 2

原创 Transformer 模型介绍（二）——位置编码 Position Embedding

为了引入序列的顺序信息，Transformer 模型在处理输入序列时使用了位置嵌入（也称为位置编码，Position Embedding）。位置嵌入是一种将单词的位置信息嵌入到输入词向量中的方法，通过额外的向量来表示单词之间的距离，从而提供顺序信息位置嵌入的作用：提供顺序信息：位置嵌入为每个单词的位置生成一个唯一的向量表示，使得模型能够区分不同位置的单词结合语义信息：位置嵌入的向量会与输入的词向量相加，从而在模型中同时考虑单词的语义信息和位置信息

2025-02-14 12:01:49 933

原创 Transformer 模型介绍（一）——综述

transformer 是一种完全基于注意力机制的神经网络模型，首次在2017年的论文中提出。该模型最初用于机器翻译任务，并在特定任务中表现优于谷歌的其他神经网络机器翻译模型。Transformer 也是 Seq2Seq（序列到序列）结构的模型，但与之前基于 RNN（循环神经网络）的 Seq2Seq 模型相比，Transformer 具有更好的并行性，能够显著提高模型的训练和推理速度

2025-02-13 23:43:21 1684

原创 iDP3复现代码模型训练全流程（五）——gr1_dex_dataset_3d.py

该类继承自 BaseDataset，在其基础上增加了特定的数据预处理、采样和规范化功能。该数据集类的核心目的是管理和处理 3D 点云数据

2025-01-19 15:09:26 524

原创 iDP3复现代码模型训练全流程（四）——gr1_dex-3d.yaml

定义任务名称name: box# 定义输入输出的元数据，描述观测（obs）和动作（action）的形状和类型obs: # 定义观测数据的组成部分point_cloud: # 点云数据部分shape: [4096, 6] # 点云包含4096个点，每个点有6个维度type: point_cloud # 指定类型为点云agent_pos: # 低维特征，表示机器人的位置或状态shape: [32] # 低维状态表示为32维type: low_dim # 类型为低维特征

2025-01-12 10:22:29 711

原创 Dexcap复现代码模型训练全流程（二）——train.py增补：模型适配数据格式

此篇和上一篇（一）紧密相关！在 robomimic 框架中，模型如何知道数据的格式并选择合适的数据进行训练，是通过以下几个步骤完成的，具体包括：数据格式的解析 -> 元数据提取 -> 模型和训练过程的自动化配置配置文件：数据格式由配置文件定义，包括数据路径、类型（hdf5）和格式（state 等）->元数据提取：从数据集中提取特征和动作的形状，用于构建模型和数据加载器->动态加载与适配：数据加载器会根据数据格式加载和处理数据，模型会根据数据的输入维度动态调整网络结构->

2025-01-11 20:32:12 627

原创 Dexcap复现代码模型训练全流程（一）——train.py

train.py 脚本是一个高度模块化和灵活的训练框架，主要用于模仿学习模型。它依赖于robomimic库，包含完整的训练生命周期管理逻辑，从配置加载到模型训练和评估，主要功能包括：模型训练 -> 模型评估 -> 实验管理 -> 日志记录和监控接下来详细分析一下该脚本的流程逻辑

2025-01-06 22:59:30 960

原创 Dexcap复现代码数据预处理全流程（四）——demo_clipping_3d.py

此脚本的主要功能是可视化点云数据文件（.pcd 文件），并通过键盘交互选择演示数据的起始帧和结束帧，生成片段标记文件 (clip_marks.json)

2025-01-06 22:35:59 716

原创 Dexcap复现代码数据预处理全流程（三）——transform_to_robot_table.py

此脚本的核心逻辑是通过 Open3D 可视化点云数据（PCD文件），并通过键盘操作手动调整点云在机器人的桌面位置接下来详细解释一下此脚本的代码逻辑

2025-01-06 22:17:03 707

原创 Dexcap复现代码数据预处理全流程（二）——calculate_offset_vis_calib.py

此脚本主要用于校准点云数据并保存位移偏移（offset）和旋转偏移（orientation offset），运行后结果如下，可以纠正 SLAM 初始漂移此脚本基于测试数据（平移和旋转偏移）计算并校准最终的偏移和旋转值，具体流程包括：读取默认偏移和测试数据 -> 根据文件名分类提取偏移和旋转数据 -> 通过矩阵运算结合默认偏移计算最终校准值 -> 保存计算结果到指定目录接下来详细解释一下此脚本的代码逻辑。

2025-01-06 19:36:20 836

原创 Dexcap复现代码数据预处理全流程（五）——demo_create_hdf5.py

此脚本的主要目的是从此前处理的数据集目录中读取多个子目录（每个子目录也是一个独立的数据集），对数据进行处理，并将处理后的数据保存到HDF5文件中。

2025-01-06 19:32:22 1099

原创 Dexcap复现代码运行逻辑全流程（一）——部署全流程代码逻辑梳理

Dexcap开源了数据采集、数据处理、数据集构建与策略训练四个部分

2025-01-05 11:07:03 833

原创 Dexcap复现代码数据预处理全流程（一）——replay_human_traj_vis.py

此脚本的主要功能是通过视觉化工具和键盘交互，动态调整和校准人体轨迹数据中的点云数据（PCD）和位姿（pose）此外，此脚本还提供了一个用于纠正 SLAM 初始漂移的接口。接下来详细解释一下此脚本的代码逻辑。

2025-01-05 11:03:22 1078

原创 iDP3复现代码遥操作全流程（二）—— convert_data.sh

iDP3 数据采集后有一个跟重要的步骤—数据转换，即将采集到的数据转换为训练格式

2025-01-02 23:17:21 636 1

原创 iDP3复现代码遥操作全流程（一）——遥操作全流程代码逻辑梳理（Teleop）

虽然遥操作部分采用的是 Fourier GR1 人形机器人，但也可以根据自己使用硬件做相应脚本修改

2025-01-02 23:13:29 499 1

原创 iDP3复现代码遥操作全流程（三）—— convert_demos.py

此脚本的主要功能是将包含在 .h5 文件中的演示数据（图像、深度、点云、状态、动作等）转换为zarr格式的压缩数据存储，以便于后续处理使用

2025-01-02 23:08:18 539

原创 iDP3复现代码模型训练全流程（三）——idp3.yaml

idp3.yaml 全逻辑可以总结为：任务定义: 训练一个扩散模型，用于点云数据的序列生成 ->数据编码: 使用PointNet对点云数据进行多阶段特征提取->扩散过程: 基于DDIMScheduler调度生成点云动作序列->训练优化: 使用AdamW优化器，通过余弦调度策略逐步降低学习率->结果管理: 配置检查点保存和日志记录，确保实验过程可控

2024-12-28 21:50:31 745

原创 iDP3复现代码模型训练全流程（二）——train_policy.py

在 train_policy.sh 接收命令行参数后，通过此脚本加载配置文件、初始化工作空间并运行训练流程

2024-12-25 23:03:04 459

原创 iDP3复现代码模型训练全流程（一）——train_policy.sh

此脚本输入设置包括：算法名称、任务名称和其他配置信息，支持调试模式和训练模式，并集成wanb 作为日志记录工具

2024-12-24 22:50:49 816 2

原创 iDP3复现代码数据预处理全流程（二）——vis_dataset.py

vis_dataset.py 主要作用在于点云数据的可视化，并可以做一些简单的预处理

2024-12-24 22:39:55 1180

原创 iDP3复现代码数据预处理全流程（一）——vis_dataset.sh

vis_dataset.sh脚本调用vis_dataset.py文件以可视化 2D/3D 数据集

2024-12-24 22:37:58 366

原创 iDP3复现代码运行逻辑全流程（三）——部署全流程代码deploy.py

此脚本是iDP3 复现使用和外界通讯的关键脚本，如果想替换对应硬件，则需要更改此脚本

2024-12-17 23:30:01 1126

原创 iDP3复现代码运行逻辑全流程（二）——部署全流程代码deploy_policy.sh

iDP3 和 DP3 架构一样，均采用了 Hydra框架，所以可以一起结合看

2024-12-17 23:13:00 1059

原创 DP3复现代码运行逻辑全流程（六）—— gen_demonstration_adroit.sh 演示生成与可视化

用于生成演示、培训和评估的脚本都在Scripts/文件夹中。DP3 通过 gen_demonstration 生成演示，即训练数据

2024-12-15 16:56:53 970 2

原创 iDP3复现代码运行逻辑全流程（四）——realsense L515 测试脚本

iDP3 采用了 realsense L515 激光雷达相机，但是并没有相关测试脚本，这一点 UMI 做的相对舒服一些，方便问题排查，因此在复现过程中写了一些测试脚本，开源方便大家复现少点麻烦首先安装 python api，此处注意务必采用推荐的 pyrealsense2==2.54.2.5684 版本，因为 L515 作为一款老产品新版本未经过适配测试

2024-12-09 22:19:32 613

原创 DP3复现代码运行逻辑全流程（四）——部署全流程代码train.py

此文章与紧密相连在 eval_policy.sh 中定义了相关参数，然后在 eval_policy.py 中进一步创建工作区实例，并调用train.py 中 eval() 函数因为在部署环节中只使用了 train.py 中 eval() 函数，更多详细内容在训练过程展开，本文只解析部署运行逻辑接下来分析一下其运行逻辑。

2024-11-06 23:57:53 1121

原创 DP3复现基础知识（一）—— Hydra 库

Hydra 是一个用于管理复杂配置的开源框架，特别适用于需要动态配置的 Python 项目。它的主要功能是允许用户通过多种方式（如配置文件、命令行参数、环境变量等）管理和合成配置Hydra 最初由 Facebook 开发，已成为了处理大规模机器学习、深度学习和其他数据科学项目中配置的一个主流工具而 DP3 中就是使用 Hydra 管理 yaml 配置文件所以本文讲解一下 Hydra 基础知识和使用教程。

2024-11-05 21:43:15 480

原创 DP3复现代码运行逻辑全流程（三）——部署全流程代码eval_policy.py

此文章与紧密相连在 eval_policy.sh 中定义了相关参数，然后在 eval_policy.py 中进一步运行该脚本使用 Hydra 框架管理配置的评估脚本。从配置文件中读取参数，设置项目的根目录，创建一个工作区实例，并调用其评估方法接下来分析一下其运行逻辑。

2024-11-03 22:48:43 564

空空如也

空空如也