自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 VQ-VAE 理念详解与 Latent Action Quantization 学习机制

VQ-VAE通过向量量化技术将连续潜在空间离散化,解决了传统VAE的后验崩溃和表征不可控问题。其核心组件包括编码器、可学习码本和量化模块,通过最近邻匹配将连续特征映射为离散语义编码。关键优势在于离散潜在空间具有可解释性和可控性,每个码本向量对应明确语义单元,便于特征编辑。此外,离散编码兼容自回归模型,为后续高质量生成(如DALL·E)奠定基础。VQ-VAE的创新设计使其在图像、语音等复杂数据表征学习中展现出显著优势。

2025-10-24 02:30:00 581

原创 为什么 VQ-VAE 能学习到 Latent Action Quantization(潜行动作量化)

LAPA(潜行动作预训练)通过VQ-VAE从无标签视频中学习离散的动作表征。该方法将视频帧对输入时空Transformer编码器,提取帧间动态特征后,通过向量量化生成语义化的动作码本。解码器利用当前帧和量化动作重建未来帧,验证动作表征的有效性。VQ-VAE的离散化特性使动作学习具备无监督、语义一致性和下游兼容性三大优势,实现了从人类视频到机器人动作的迁移。实验表明,该方法能准确捕捉"推倒杯子"等动作语义,为视觉-语言模型提供可解释的动作token。

2025-10-23 22:11:48 858

原创 Flow Matching 时序任务:分布生成与多步动作序列的关联解析

本文探讨了Flow Matching在机器人时序动作生成中的核心原理,指出其建模的是完整动作序列的时序分布(如140维的动作矩阵),而非单个关节角度的独立分布。文章通过20步叠衬衫任务为例,详细分析了从初始噪声矩阵到目标时序矩阵的流变换过程,强调积分流对应的是序列整体趋势而非单步优化。同时解释了20步任务序列与物理控制频率的映射关系,以及实时观测对预生成序列的动态修正机制。最后总结了三个关键结论:1)分布维度需匹配序列维度;2)积分流对应序列整体趋势;3)任务步长是硬件控制频率与任务时长的对齐结果。

2025-10-23 22:03:29 866

原创 Flow Matching 机械臂控制:实时刷新与初始状态部署详解

Flow Matching在机械臂控制中采用"预生成动作轨迹+实时观测动态修正"的混合模式,以50Hz频率闭环控制机械臂动作。初始轨迹基于任务指令和初始观测生成,后续通过视觉、力觉等多模态传感器实时修正动作,误差处理能力达±5°关节误差和±10cm位置偏移。推理阶段需将训练时的高斯噪声状态映射到机械臂物理零位,通过"噪声→零位→初始任务姿态"三步转换,确保数学假设与物理硬件兼容。该方案支持真实场景下的自适应控制,如应对衣物褶皱变化等动态环境。

2025-10-18 10:30:00 714

原创 Flow Matching 与主流生成式模型的核心差异解析

摘要:Flow Matching是一种新型生成模型,其核心机制通过学习正向速度场引导连续流变换,与主流生成模型存在显著差异。相比扩散模型需要逆向去噪、GAN依赖对抗训练和归一化流要求可逆变换,Flow Matching直接建立噪声到数据的平滑映射路径,具有训练稳定(显式速度监督)、推理高效(10-50步积分)和生成连续性强等优势。实验显示在动作生成等任务中,其训练效率比GAN高3倍,推理速度比扩散模型快10倍。该技术特别适合连续时序生成和轻量级部署场景,但在概率建模能力上稍逊于归一化流。不同模型各有优势场景

2025-10-17 07:45:00 1194

原创 Flow Matching 公式推导与实例应用步骤拆解

本文系统推导了Flow Matching的核心公式,包括基础ODE、初始与目标分布、噪声状态生成、条件流匹配损失函数以及推理阶段积分公式,并解析了跨模态条件融入方法。通过机器人叠衬衫动作生成和文生图“红色玫瑰”两个实例,详细拆解了Flow Matching的应用步骤:从定义初始/目标分布、生成噪声状态、训练模型优化损失函数,到推理阶段数值积分生成最终结果。该方法通过连续ODE演化实现从简单初始分布到复杂目标分布的平滑变换,为跨模态生成任务提供了高效解决方案。

2025-10-16 21:05:10 1008

原创 为什么Orthogonal Finetuning (OFT)和Householder Reflection Adaptation (HRA)能更好保留特征,控制输出?两者的权重更新数学表达与解释?

(OFT) 、(HRA) 两者均通过正交性保证 “权重更新不破坏预训练语义结构”,同时通过稀疏参数化(块对角或反射链)实现高效微调,适用于需要严格控制输出与预训练知识一致性的场景(如可控生成、指令微调)。OFT 和 HRA 通过正交性理论与参数高效设计,在微调中实现了 “保留特征” 与 “控制输出” 的双重目标,为大模型的高效适配提供了重要思路。

2025-06-10 22:07:46 929

原创 举例说明如何理解强化学习中的 Actor-Critic?为啥两者模型形状不一样?

在强化学习中,Actor - Critic 是一种结合了基于策略(Policy - Based)和基于价值(Value - Based)方法优点的算法框架。下面我们结合你给出的 Actor 和 Critic 的多层感知机(MLP)结构来详细理解 Actor - Critic。

2025-02-24 19:37:25 1232

原创 Beam-search decoding和其它常见decoding策略

Beam-search decoding(束搜索解码)是一种在自然语言处理、语音识别等诸多序列生成任务中常用的解码策略,用于从模型生成的众多可能的输出序列中找到相对更优的序列。

2024-11-21 13:00:00 1139

原创 evaluate.bleu 及它的输出结果解析

总体而言,从这些数据来看,此次机器翻译在词汇和短语匹配上表现较好,尤其是在单个单词和较短短语的匹配上精度较高,并且翻译文本长度与参考文本长度相当,不存在因文本过短而被惩罚的情况,最终获得了较为不错的 BLEU 分数。

2024-11-20 16:00:00 1000

原创 BLEU及一些其它的机器翻译评估指标

BLEU(Bilingual Evaluation Understudy)即双语互译质量评估辅助工具,是一种在机器翻译任务中广泛使用的评估指标。

2024-11-19 15:40:04 1615

原创 如何理解神经网络中权重矩阵的作用?

在神经网络中,权重矩阵起着至关重要的作用。

2024-11-09 00:00:00 702

原创 如何快速熟悉和使用一个面向对象的库?

在学习和使用库的过程中,记录下重要的知识点、技巧和问题解决方案。这将有助于你在以后的项目中快速回忆起库的用法,也可以作为参考资料分享给其他人。反思你在使用库的过程中遇到的挑战和成功经验。思考如何更好地利用库的功能,以及在未来的项目中如何改进你的使用方法。通过以上步骤,你可以相对快速地熟悉和使用一个面向对象的库,并逐渐掌握其更高级的功能和应用场景。不断实践和探索是提高对库的理解和熟练程度的关键。

2024-11-08 00:15:00 361

原创 什么是ABC class,很多类都继承自它?

抽象基类是一种不能被直接实例化的类,它主要用于定义一组抽象方法,这些方法必须在其子类中实现。抽象基类的目的是为了提供一个通用的接口规范,确保所有的子类都实现了特定的方法。

2024-11-07 12:30:00 560

原创 如何理解面向对象编程中的class and config class

总之,类是面向对象编程中的基本概念,用于定义对象的模板和行为;而配置类是一种特殊的类,用于集中存储和管理程序的配置参数。理解这两个概念对于编写可维护、可扩展的 Python 程序非常重要。

2024-11-06 02:30:00 421

原创 Pytorch中的nn.Embedding

作用:nn.Embedding主要用于将离散的整数索引映射为连续的向量表示。在自然语言处理任务中,它常用于将单词的索引转换为词向量;在其他任务中,也可以用于将类别索引等转换为向量表示。输入输出:输入是一个形状为(batch_size, sequence_length)的整数张量,其中每个整数代表一个索引。输出是一个形状为(batch_size, sequence_length, embedding_dim)的张量,其中embedding_dim是嵌入向量的维度。

2024-11-05 18:00:00 541 1

原创 使用tokenizer已经将句子转化成张量了后还需要使用embedding吗

在使用 tokenizer 将句子转化成张量后,可能仍然需要使用 embedding。

2024-11-05 13:23:38 311

原创 一、基础教程CLI:1.1 安装ROS2环境(Debian Package @Iron)

​ROS2 Iron的Debian软件包目前可用于Ubuntu Jammy。Rolling Ridley发行版将随着新平台的选择而不时更改目标平台。REP 2000中定义了目标平台。大多数人希望使用稳定的ROS发布,而最新版本的对优秀的开发者有着很强的吸引力,下面介绍目前最新的ROS2-Iron的安装。

2023-07-24 21:06:54 2687

原创 MUX数据选择器底层原理及Verilog实现

在理解数据选择器的时候我们往往会有这样的问题:数据选择器的底层是怎样的?对于8选一,只需要将X的位数变为3位X[2:0],对于16选一,只需要将X的位数变为4位X[3:0],以此类推。从表达式中可以看出来,当确定某一个X的组合时,如X=00,那么不满足该条件的其它项都为0,最后Y的结果为。对于多位对多位的输入比如输入为4bits*4,输出为4bits,只需要将上1比特4选一复用器按位拓展。首先考虑一个简单的一位多输入选择器(四选一输入D[3:0],片选信号X[1:0],输出Y)

2022-09-19 23:31:11 5669

原创 CORDIC算法旋转模式和向量模式的MATLAB及Verilog实现

CORDIC算法旋转模式和向量模式的MATLAB及Verilog实现

2022-09-14 19:27:08 4428 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除