道风杰韵-优快云博客

原创 VQ-VAE 理念详解与 Latent Action Quantization 学习机制

VQ-VAE通过向量量化技术将连续潜在空间离散化，解决了传统VAE的后验崩溃和表征不可控问题。其核心组件包括编码器、可学习码本和量化模块，通过最近邻匹配将连续特征映射为离散语义编码。关键优势在于离散潜在空间具有可解释性和可控性，每个码本向量对应明确语义单元，便于特征编辑。此外，离散编码兼容自回归模型，为后续高质量生成（如DALL·E）奠定基础。VQ-VAE的创新设计使其在图像、语音等复杂数据表征学习中展现出显著优势。

2025-10-24 02:30:00 581

原创为什么 VQ-VAE 能学习到 Latent Action Quantization（潜行动作量化）

LAPA（潜行动作预训练）通过VQ-VAE从无标签视频中学习离散的动作表征。该方法将视频帧对输入时空Transformer编码器，提取帧间动态特征后，通过向量量化生成语义化的动作码本。解码器利用当前帧和量化动作重建未来帧，验证动作表征的有效性。VQ-VAE的离散化特性使动作学习具备无监督、语义一致性和下游兼容性三大优势，实现了从人类视频到机器人动作的迁移。实验表明，该方法能准确捕捉"推倒杯子"等动作语义，为视觉-语言模型提供可解释的动作token。

2025-10-23 22:11:48 858

原创 Flow Matching 时序任务：分布生成与多步动作序列的关联解析

本文探讨了Flow Matching在机器人时序动作生成中的核心原理，指出其建模的是完整动作序列的时序分布（如140维的动作矩阵），而非单个关节角度的独立分布。文章通过20步叠衬衫任务为例，详细分析了从初始噪声矩阵到目标时序矩阵的流变换过程，强调积分流对应的是序列整体趋势而非单步优化。同时解释了20步任务序列与物理控制频率的映射关系，以及实时观测对预生成序列的动态修正机制。最后总结了三个关键结论：1）分布维度需匹配序列维度；2）积分流对应序列整体趋势；3）任务步长是硬件控制频率与任务时长的对齐结果。

2025-10-23 22:03:29 866

原创 Flow Matching 机械臂控制：实时刷新与初始状态部署详解

Flow Matching在机械臂控制中采用"预生成动作轨迹+实时观测动态修正"的混合模式，以50Hz频率闭环控制机械臂动作。初始轨迹基于任务指令和初始观测生成，后续通过视觉、力觉等多模态传感器实时修正动作，误差处理能力达±5°关节误差和±10cm位置偏移。推理阶段需将训练时的高斯噪声状态映射到机械臂物理零位，通过"噪声→零位→初始任务姿态"三步转换，确保数学假设与物理硬件兼容。该方案支持真实场景下的自适应控制，如应对衣物褶皱变化等动态环境。

2025-10-18 10:30:00 714

原创 Flow Matching 与主流生成式模型的核心差异解析

摘要：Flow Matching是一种新型生成模型，其核心机制通过学习正向速度场引导连续流变换，与主流生成模型存在显著差异。相比扩散模型需要逆向去噪、GAN依赖对抗训练和归一化流要求可逆变换，Flow Matching直接建立噪声到数据的平滑映射路径，具有训练稳定（显式速度监督）、推理高效（10-50步积分）和生成连续性强等优势。实验显示在动作生成等任务中，其训练效率比GAN高3倍，推理速度比扩散模型快10倍。该技术特别适合连续时序生成和轻量级部署场景，但在概率建模能力上稍逊于归一化流。不同模型各有优势场景

2025-10-17 07:45:00 1194

原创 Flow Matching 公式推导与实例应用步骤拆解

本文系统推导了Flow Matching的核心公式，包括基础ODE、初始与目标分布、噪声状态生成、条件流匹配损失函数以及推理阶段积分公式，并解析了跨模态条件融入方法。通过机器人叠衬衫动作生成和文生图“红色玫瑰”两个实例，详细拆解了Flow Matching的应用步骤：从定义初始/目标分布、生成噪声状态、训练模型优化损失函数，到推理阶段数值积分生成最终结果。该方法通过连续ODE演化实现从简单初始分布到复杂目标分布的平滑变换，为跨模态生成任务提供了高效解决方案。

2025-10-16 21:05:10 1008

原创为什么Orthogonal Finetuning (OFT)和Householder Reflection Adaptation (HRA)能更好保留特征，控制输出?两者的权重更新数学表达与解释？

(OFT) 、(HRA) 两者均通过正交性保证 “权重更新不破坏预训练语义结构”，同时通过稀疏参数化（块对角或反射链）实现高效微调，适用于需要严格控制输出与预训练知识一致性的场景（如可控生成、指令微调）。OFT 和 HRA 通过正交性理论与参数高效设计，在微调中实现了 “保留特征” 与 “控制输出” 的双重目标，为大模型的高效适配提供了重要思路。

2025-06-10 22:07:46 929

原创举例说明如何理解强化学习中的 Actor-Critic？为啥两者模型形状不一样？

在强化学习中，Actor - Critic 是一种结合了基于策略（Policy - Based）和基于价值（Value - Based）方法优点的算法框架。下面我们结合你给出的 Actor 和 Critic 的多层感知机（MLP）结构来详细理解 Actor - Critic。

2025-02-24 19:37:25 1232

原创 Beam-search decoding和其它常见decoding策略

Beam-search decoding（束搜索解码）是一种在自然语言处理、语音识别等诸多序列生成任务中常用的解码策略，用于从模型生成的众多可能的输出序列中找到相对更优的序列。

2024-11-21 13:00:00 1139

原创 evaluate.bleu 及它的输出结果解析

总体而言，从这些数据来看，此次机器翻译在词汇和短语匹配上表现较好，尤其是在单个单词和较短短语的匹配上精度较高，并且翻译文本长度与参考文本长度相当，不存在因文本过短而被惩罚的情况，最终获得了较为不错的 BLEU 分数。

2024-11-20 16:00:00 1000

原创 BLEU及一些其它的机器翻译评估指标

BLEU（Bilingual Evaluation Understudy）即双语互译质量评估辅助工具，是一种在机器翻译任务中广泛使用的评估指标。

2024-11-19 15:40:04 1615

原创如何理解神经网络中权重矩阵的作用？

在神经网络中，权重矩阵起着至关重要的作用。

2024-11-09 00:00:00 702

原创如何快速熟悉和使用一个面向对象的库？

在学习和使用库的过程中，记录下重要的知识点、技巧和问题解决方案。这将有助于你在以后的项目中快速回忆起库的用法，也可以作为参考资料分享给其他人。反思你在使用库的过程中遇到的挑战和成功经验。思考如何更好地利用库的功能，以及在未来的项目中如何改进你的使用方法。通过以上步骤，你可以相对快速地熟悉和使用一个面向对象的库，并逐渐掌握其更高级的功能和应用场景。不断实践和探索是提高对库的理解和熟练程度的关键。

2024-11-08 00:15:00 361

原创什么是ABC class，很多类都继承自它？

抽象基类是一种不能被直接实例化的类，它主要用于定义一组抽象方法，这些方法必须在其子类中实现。抽象基类的目的是为了提供一个通用的接口规范，确保所有的子类都实现了特定的方法。

2024-11-07 12:30:00 560

原创如何理解面向对象编程中的class and config class

总之，类是面向对象编程中的基本概念，用于定义对象的模板和行为；而配置类是一种特殊的类，用于集中存储和管理程序的配置参数。理解这两个概念对于编写可维护、可扩展的 Python 程序非常重要。

2024-11-06 02:30:00 421

原创 Pytorch中的nn.Embedding

作用：nn.Embedding主要用于将离散的整数索引映射为连续的向量表示。在自然语言处理任务中，它常用于将单词的索引转换为词向量；在其他任务中，也可以用于将类别索引等转换为向量表示。输入输出：输入是一个形状为(batch_size, sequence_length)的整数张量，其中每个整数代表一个索引。输出是一个形状为(batch_size, sequence_length, embedding_dim)的张量，其中embedding_dim是嵌入向量的维度。

2024-11-05 18:00:00 541 1

原创使用tokenizer已经将句子转化成张量了后还需要使用embedding吗

在使用 tokenizer 将句子转化成张量后，可能仍然需要使用 embedding。

2024-11-05 13:23:38 311

原创一、基础教程CLI：1.1 安装ROS2环境（Debian Package @Iron）

ROS2 Iron的Debian软件包目前可用于Ubuntu Jammy。Rolling Ridley发行版将随着新平台的选择而不时更改目标平台。REP 2000中定义了目标平台。大多数人希望使用稳定的ROS发布，而最新版本的对优秀的开发者有着很强的吸引力，下面介绍目前最新的ROS2-Iron的安装。

2023-07-24 21:06:54 2687

原创 MUX数据选择器底层原理及Verilog实现

在理解数据选择器的时候我们往往会有这样的问题：数据选择器的底层是怎样的？对于8选一，只需要将X的位数变为3位X[2:0]，对于16选一，只需要将X的位数变为4位X[3:0]，以此类推。从表达式中可以看出来，当确定某一个X的组合时，如X=00，那么不满足该条件的其它项都为0，最后Y的结果为。对于多位对多位的输入比如输入为4bits*4，输出为4bits，只需要将上1比特4选一复用器按位拓展。首先考虑一个简单的一位多输入选择器（四选一输入D[3:0]，片选信号X[1:0]，输出Y）

2022-09-19 23:31:11 5669

原创 CORDIC算法旋转模式和向量模式的MATLAB及Verilog实现

CORDIC算法旋转模式和向量模式的MATLAB及Verilog实现

2022-09-14 19:27:08 4428 1

weixin_43983766的博客