- 博客(20)
- 收藏
- 关注
原创 BLIP和BLIP2解析
BLIP与BLIP-2是多模态视觉语言预训练模型,旨在解决视觉与语言对齐问题。BLIP通过统一编码器-解码器架构实现图文理解与生成,但存在端到端训练成本高的问题。BLIP-2引入轻量级Q-Former作为桥梁,采用两阶段训练策略:第一阶段通过对比学习、匹配任务和文本生成任务训练Q-Former提取关键视觉特征;第二阶段将Q-Former输出适配到冻结的大型语言模型(LLM),实现高效的多模态推理。该方案显著降低了训练成本,同时保持优异性能,支持多种LLM架构适配。核心创新在于Q-Former的设计,能有效对
2025-12-17 19:23:43
821
原创 多模态模型CLIP详解
CLIP(Contrastive Language–Image Pretraining)是 OpenAI 提出的一种多模态模型,通过对大量“图像–文本”对进行对比学习训练,使模型能够将图像和自然语言映射到同一个语义空间中。它不需要为每个视觉任务单独标注数据,而是通过理解文本描述来完成图像分类、检索和零样本学习等任务,从而具备很强的泛化能力和跨模态理解能力
2025-12-17 18:47:30
979
原创 DiTa:扩展Diffusion Transformer以实现通用视觉-语言-动作策略
本文提出Dita,一种基于扩散Transformer的通用机器人策略框架,通过多模态输入与上下文条件化实现连续动作生成。Dita采用第三人称相机图像和语言指令作为输入,利用预训练模型提取特征,并通过扩散Transformer直接对7维动作向量进行去噪。该方法在Open X-Embodiment数据集上预训练,仅需10-shot微调即可适应新任务。实验表明,Dita在多个仿真平台和真实机器人场景中表现优异,其紧凑的334M参数模型展现出强大的泛化能力和长程任务处理能力,为通用机器人策略学习提供了新思路。
2025-12-15 22:29:59
977
原创 EmbRACE-3K:复杂环境中的体现推理和行动
本文提出EmbRACE-3K数据集,旨在解决视觉语言模型在具身环境中的三大挑战:短视探索、动态空间语义漂移和目标遗忘。该数据集包含3000多个由虚幻引擎构建的多样化任务,涵盖导航、物体操作等场景,并配有详细的多模态标注。研究采用两阶段微调方法(监督学习+GRPO强化学习)提升Qwen2.5-VL模型的具身推理能力。实验表明,经过微调的模型在成功率等指标上显著提升,验证了数据集的有效性。该工作为具身智能研究提供了高质量数据支持和评估基准。
2025-12-15 22:12:54
692
原创 Octo论文详解
本文提出Octo,一种基于Transformer的开源通用机器人策略模型。Octo采用模块化设计,包括输入标记器、Transformer主干网络和读出头三部分,支持多任务、多传感器输入和不同动作空间。模型在Open X-Embodiment数据集的80万条轨迹上预训练,采用条件扩散解码头预测多模态动作分布,并通过加权采样优化数据多样性。实验表明,Octo能灵活适应新任务,仅需微调读出头即可处理不同机器人平台和任务。该模型为构建通用机器人策略提供了有效解决方案。
2025-12-14 15:00:47
549
原创 Diffusion Policy详解
Diffusion Policy 是一种将扩散模型(Diffusion Model)用于机器人控制的策略学习方法:它把机器人动作序列看作“需要逐步去噪生成的数据”,在给定当前观测(如图像、状态、语言指令)的条件下,通过多步去噪过程直接生成连续、平滑且多模态的动作轨迹。相比传统行为克隆或单步回归策略,Diffusion Policy 更擅长建模复杂长时序操作、不确定性和多解行为,在真实机器人操作与仿真任务中表现出更强的稳定性与泛化能力。
2025-12-14 14:52:59
1000
原创 ubuntu22.04安装anygrasp服务,完整全流程非常详细
在安装MinkowskiEngine时遇到CUDA13.0与GCC版本不兼容问题。服务器环境为CUDA13.0+PyTorch2.9.1,当前GCC版本13.0导致安装失败。解决方案是降级GCC至12.3.0版本,与CUDA13.0匹配。参考了相关GitHub issue和博客教程,通过调整GCC版本解决了安装错误问题。该问题主要源于CUDA与编译器版本间的兼容性要求。
2025-12-10 10:09:48
314
原创 详解InternData-A1:仿真数据性能媲美真机数据
本文提出InternData-A1,一个大规模高保真合成机器人操作数据集,包含4种机器人、18项技能、70个任务的630k轨迹数据(7433小时)。通过模块化技能组合和高效数据生成框架,该数据集覆盖刚性/铰接/可变形/流体物体交互,显著提升了仿真数据的多样性和真实性。实验表明,仅用仿真数据训练的模型在真实任务中成功率超50%,验证了高质量合成数据对机器人预训练的有效性。该工作为降低真实数据采集成本、提升模型泛化能力提供了可行方案。
2025-12-08 19:25:25
1135
原创 详解genmanip,生成桌面操作仿真数据
GENMANIP是一个基于LLM驱动的桌面仿真平台,用于评估指令跟随的机器人操作任务。其核心创新包括:1)构建大规模3D资产库(10K+带VL注释的物体);2)提出面向任务的场景图(ToSG)表示法,通过LLM自动生成多样化任务场景;3)开发模块化操作系统,整合视觉基础模型(如SAM、GPT-4V)进行目标定位、抓取规划和运动控制。实验表明,该系统能生成复杂的长时程任务(如"把红色杯子放到微波炉左边"),平均任务完成率达65.3%。主要局限在于仅支持桌面Pick-and-Place操作,
2025-12-08 19:10:37
545
原创 基于VNC远程连接服务器以及容器(获取图形化界面)
摘要:本文介绍了使用VNC远程连接服务器运行IsaacSim等3D图形软件的解决方案。通过TigerVNC服务安装配置(包括密码设置和会话创建),客户端可流畅访问服务器桌面环境。相比SSH的X11转发方案(适合命令行但3D性能差),VNC直接在服务器端完成GPU渲染,仅传输压缩画面,显著提升图形应用响应速度。建议开发时SSH与VNC配合使用:SSH处理命令行操作,VNC专门运行图形界面程序。
2025-12-05 12:36:34
655
原创 RoboTwin 2.0:生成双臂机器人仿真数据
《RoboTwin 2.0:面向双臂机器人的仿真数据生成框架》摘要:该研究提出了一种创新性的仿真数据生成系统,通过多模态大语言模型和模拟反馈循环构建自动化专家数据生成管道。系统包含三大核心组件:1)集成视觉语言模型的闭环验证机制,确保生成高质量操作轨迹;2)覆盖语言指令、物体杂波等五维度的领域随机化方案;3)针对不同机器人硬件的自适应操作候选项模块。项目贡献了包含731个标注物体的资产库、超10万条专家轨迹数据集及标准化测试平台,有效解决了仿真数据质量差、环境单一和跨平台适配等关键问题。
2025-09-17 16:58:41
1078
原创 AHA:生成机器人仿真数据集
摘要:开放世界环境中的机器人操作不仅需要执行任务,还需要在执行过程中检测故障并从中学习的能力。虽然视觉语言模型(VLMs)和大型语言模型(LLMs)的最新进展增强了机器人的空间推理和解决问题的能力,但这些模型往往难以识别和推理故障,限制了它们在现实世界应用中的有效性。通过将故障检测视为自由形式的推理任务,AHA识别故障并生成详细的解释,这些解释适用于模拟和现实场景中的各种机器人、任务和环境。
2025-09-17 16:43:01
1192
原创 linux系统常见操作记录
本文摘要:本文汇总了容器、文件夹和进程的基本操作命令。容器操作包括创建、查看状态、启停、删除及进入容器等docker命令;文件夹操作涵盖删除、重命名、复制、压缩/解压文件及修改权限等指令;进程操作则介绍了查看进程及两种终止进程的方式(正常终止和强制终止)。这些命令适用于Ubuntu系统下的日常运维工作,可作为开发者快速查阅的实用操作指南。
2025-08-27 09:25:46
253
原创 能量模型(EBM)基础知识
能量模型(EBM)通过能量函数刻画数据分布,利用玻尔兹曼分布建模真实数据生成过程。其核心思想是让真实数据对应低能量状态(高概率),噪声数据对应高能量状态(低概率)。EBM通过极大似然估计优化,但计算配分函数Z困难,因此采用对比散度(CD)算法进行梯度优化,使训练数据概率高于采样数据。采样过程借助朗之万动力学,通过随机梯度上升从复杂分布中生成样本。该方法结合了物理系统的能量最小化原理与深度学习的表达能力,为生成模型提供了一种灵活的框架。
2025-08-04 10:43:59
772
原创 一文搞懂ViT模型
ViT(Vision Transformer) 是一种将 Transformer 模型用于计算机视觉任务中的创新架构。ViT 只使用了 Transformer 的编码器 部分进行特征提取和表征学习。核心思想是将传统的(CNN)的卷积操作替换为 Transformer 的注意力机制,借鉴 Transformer 模型在自然语言处理(NLP)中的成功经验,用于图像分类任务。
2025-08-04 09:12:07
1590
原创 AE、VAE和VQVAE一文详解
自编码器(AE)与变分自编码器(VAE)是两类重要的生成模型。AE通过编码-解码结构实现数据压缩与重建,但无法生成新样本。VAE通过引入概率分布改进AE,将潜在变量建模为标准正态分布,使模型具备生成能力。VAE的核心是最大化证据下界(ELBO),包含重构项和KL散度项,前者确保生成质量,后者约束潜在空间分布。通过重参数化技巧解决梯度问题,VAE能够从概率分布中采样生成新数据,克服了AE的局限性。
2025-07-31 20:25:51
1180
原创 一文详解DiT模型
DiT模型将扩散模型(DDPM)的U-Net替换为Transformer架构,显著提升图像生成质量。DiT通过结合VAE编码器和Transformer,在潜在空间实现高效扩散过程,支持多模态条件融合(如时间步和类别标签。实验表明,DiT具备强扩展性,增大参数量或数据质量可稳步提升生成性能。
2025-07-10 15:57:17
2584
原创 扩散模型(DDPM)详解
扩散模型通过前向加噪和逆向去噪过程实现图像生成。前向过程逐步添加高斯噪声,将原始图像转化为标准正态分布;逆向过程利用神经网络学习去噪步骤,从噪声中重建图像。该方法能有效将噪声分布转化为目标图像分布,实现高质量生成。模型优势在于无需显式定义复杂分布,通过噪声调度和神经网络学习即可完成生成任务。
2025-06-29 00:42:02
1449
原创 transformer详解:原理和应用
Transformer 模型是一种基于注意力机制的深度学习模型,Transformer 彻底改变了自然语言处理(NLP)领域,并逐渐扩展到计算机视觉(CV)等领域。Transformer 的核心思想是完全摒弃传统的循环神经网络(RNN)结构,仅依赖注意力机制来处理序列数据,从而实现更高的并行性和更快的训练速度。
2025-06-28 11:40:36
2300
原创 实现opencv、PIL、matplotlib对图像的保存、显示和其他操作
OpenCV是一个计算机视觉和机器学习软件库。一,图片基本操作cv2.imread(filepath,flags)读入图片,注意:读取的通道顺序是BGR参数意义:彩色图像转灰色3.展示图片4. 读取图片相关信息5. 通道切分与合并6. 调换通道顺序7. 保存图片二、matplotlib处理图像Matplotlib 是 Python 的绘图库, 它可与 NumPy 一起使用。三、PIL1.读取图片2. 保存图像3. 注意事项总结以上就是今天要讲的内容,本
2022-12-03 22:29:09
1262
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅