大幅降低内存开销!BitVLA:首个面向机器人操作的1-bit VLA模型

点击下方卡片,关注“具身智能之心”公众号

作者丨Hongyu Wang等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文


>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

昨天还在和具身智能之心星球内部的童鞋讨论VLA模型的部署问题,觉得领域关注的还不够,甚至说没有时间去处理部署,因为现在具身还有很多问题没有很好解决,昨天看到了一篇BitVLA,关于部署的,觉得蛮有意思,和大家分享下。更多干货,欢迎加入我们的具身圈子,和近200家公司和机构讨论。

问题抛出&出发点

VLA模型在众多机器人操作任务中展现出了令人印象深刻的能力。然而,其不断增长的模型规模给资源受限的机器人系统部署带来了巨大挑战。尽管1-bit预训练已被证明能有效提高大型语言模型的推理效率,且性能损失极小,但它在VLA模型中的应用仍未得到充分探索。这里提出了BitVLA,首个用于机器人操作的1-bit VLA模型,其中每个参数都是三值的,即{-1, 0, 1}。为了进一步减少视觉编码器的内存占用,提出了一种蒸馏感知训练策略,将全精度编码器压缩为1.58-bit权重。在此过程中,使用全精度编码器作为教师模型,以更好地对齐潜在表示。尽管缺乏大规模机器人预训练,BitVLA在LIBERO基准测试上的表现与最先进的模型OpenVLA-OFT(采用4位后训练量化)相当,而内存消耗仅为其29.8%。这些结果凸显了BitVLA在内存受限的边缘设备上部署的潜力。

代码和模型权重:https://github.com/ustcwhy/BitVLA

背景介绍

近年来,视觉语言模型(VLMs)取得了显著进展。这些模型在下游任务中取得了令人瞩目的成果,如视觉问答、数学推理和人机交互等。在这一进展的基础上,该领域正日益转向视觉-语言-动作(VLA)模型,这些模型扩展了VLMs的模态,将动作生成纳入机器人控制。这些模型旨在赋予机器人理解视觉环境、遵循自然语言指令和自主执行任务的能力。VLA模型提供了一个统一的框架来桥接感知、语言理解和运动控制,使其成为具身人工智能的有前途的范例。

然而,在现实世界的机器人系统中部署如此大规模的VLA模型仍然极具挑战性,尤其是在资源受限的边缘设备上。这些系统通常在内存、计算吞吐量和能源可用性方面受到限制。模型量化的最新努力表明,降低模型权重和激活的位宽可以显著提高效率。特别是1-bit大语言模型(LLMs),其中每个参数被限制为三值(即1, 0, 1),已成为一种引人注目的解决方案。这些模型在各种自然语言处理基准上实现了有竞争力的性能,同时大幅减少了内存占用、能源消耗和推理延迟。此外,三值参数空间支持高效的硬件执行,并可以简化在边缘加速器上的部署。尽管前景广阔,但现有的1-bit模型在很大程度上局限于语言领域。据我们所知,在多模态任务和机器人控制中的扩展尚未得到彻底探索。

这里介绍了BitVLA,首个用于机器人操作的1-bit视觉-语言-动作模型,其中每个参数都是三值的,即{-1, 0, 1}。BitVLA基于公开可用的1-bit LLM BitNet b1.58 2B4T构建。首先使用1-bitLLM和全精度视觉编码器训练视觉语言模型,遵循LLaVA的训练范式。为了进一步减少内存占用,引入了蒸馏感知训练,将视觉编码器量化为1.58位权重和8位激活。在这个阶段,只训练模型的视觉编码器,其中全精度编码器用作教师模型,以更好地对齐潜在表示。如图1所示,尽管没有大规模的机器人预训练,BitVLA在LIBERO基准测试上的表现与最先进的模型OpenVLA-OFT(采用4位后训练量化)相当,而内存占用仅为其29.8%。这些结果表明,BitVLA为机器人操作提供了一种经济高效的高性能解决方案,使其在内存受限的机器人系统中可行。

相关工作

VLA模型

受VLMs快速发展的启发,机器人领域的研究人员开始探索直接生成低级控制信号的VLA模型。RT系列引入了Open X-Embodiment(OXE),这是一个大规模的标准化机器人数据集,并使用它来训练RT-X,这是一个用于机器人操作任务的通用模型。OpenVLA详细讨论了VLA的设计,涵盖了从预训练架构到参数高效的微调方法和部署策略的各个方面,同时完全开源了所有阶段的训练方法和预训练模型。RoboFlamingo利用预训练的VLMs进行单步视觉语言推理,引入了策略头来捕捉序列历史,并通过模仿学习需要最小的微调。OpenVLA-OFT通过对连续动作进行建模、采用并行解码以及应用来自模仿学习的动作分块来优化微调过程。为了提高推理效率,TinyVLA采用紧凑的1.3B VLM骨干网,并跳过预训练以提高数据效率。最近,NORA利用Qwen2.5-VL-3B作为其骨干网,通过FAST+token器增强动作生成,展示了有竞争力的性能。

原生1-bit模型

现代深度学习研究越来越关注量化感知训练和低精度推理。最近的研究已经证明了1-bit和1.58位预训练在LLMs中的潜力。实验表明,随着参数数量的增加,1-bit模型和全精度模型之间的性能差距会缩小。此外,BitNet b1.58表明,从3B规模开始,1.58位LLMs可以匹配全精度模型的性能,同时在内存占用、解码延迟和能源消耗方面显著降低推理成本。OneBit进一步探索了使用知识蒸馏来训练二进制LLMs。bitnet.cpp开发了一个针对1-bitLLMs优化的推理系统,大大降低了CPU设备上的能源消耗并提高了解码延迟。最近,训练了一个2B参数的三值LLM,相对于领先的开放权重LLMs实现了有竞争力的性能。1-bitLLMs的低内存和能源要求使其对边缘应用特别有吸引力,尤其是对于机器人任务。然而,据我们所知,1-bit模型在视觉语言和视觉语言动作训练中的扩展在很大程度上仍未被探索。

BitVLA:1-bit VLA

BitVLA模型架构

BitVLA采用BitNet b1.58 2B4T作为LLM骨干网,并使用SigLIP-L作为视觉编码器。采用在224×224分辨率图像上预训练的SigLIP-L版本,从而产生更短的视觉token序列。这一选择在对性能影响最小的情况下提高了计算效率。使用带有GeLU激活函数的两层MLP作为连接器,由于其对整体模型大小的贡献可忽略不计,因此保持全精度。

对于量化,对权重使用absmean量化器,对激活使用每个token的absmax量化器。权重被量化为三值(即1, 0, 1),而激活被量化为对称INT8(即[-128, 127])。量化可以表示为:

其中 表示线性层的可学习权重, 示输入。三值线性层的输出计算为 ,其中 分别表示权重和激活的量化函数。

我们对视觉编码器中的所有线性层应用量化,不包括输入和输出嵌入层。BitVLA采用量化感知训练,在正向传播期间动态执行量化。由于量化操作的不可微性质,采用直通估计器(STE)在反向传播期间近似梯度。具体来说,梯度直接通过量化函数传递,遵循近似:

梯度和优化器状态都保持全精度以保持训练稳定性。

蒸馏感知训练

语言建模损失

自回归语言建模损失 广泛用于训练VLMs。设T表示输入文本序列,其分为指令部分 和响应部分 。由1.58位视觉编码器提取的视觉token表示为 。语言建模损失可以表示为:

其中 表示模型在位置i处的预测token。损失仅在响应token  上计算,而指令和视觉token作为上下文提供。

表示对齐损失

为了增强1.58位和全精度视觉编码器的潜在表示之间的对齐,通过知识蒸馏学习1.58位编码器,其中全精度编码器用作教师模型。设 分别表示全精度和1.58位视觉编码器的第l层的输出。对齐损失定义为:

其中n是隐藏维度,L是视觉编码器中的总层数。该辅助损失鼓励1.58位视觉编码器模仿其全精度对应物的表示行为。

综上所述,训练目标 为:

其中γ是表示对齐的系数。在蒸馏感知训练期间,只有视觉编码器是可训练的,而其他组件(即LLM和连接器)被冻结。在实验中观察到,与LLMs的1.58位预训练不同,1.58位编码器的量化感知训练在从全精度教师模型进行蒸馏时具有高度的数据效率。它仅使用数十亿个训练token就保留了其全精度对应物的大部分性能。

机器人微调

遵循OpenVLA-OFT,利用并行解码和动作分块技术来提高VLA模型的吞吐量。用双向注意力掩码替换LLMs中使用的传统因果掩码,使每个前向传递能够在多个时间步上生成连贯的动作轨迹。与自回归、逐个token的预测相比,这种方法显著提高了实时控制效率。此外,集成了一个基于MLP的动作Head,将查询token的潜在表示投影到连续的机器人动作空间中。模型被训练为最小化预测动作与地面真实轨迹之间的L1损失。

实验对比分析

模型训练

BitVLA的训练采用三阶段流程。遵循LLaVA的方法,首先使用LLaVA 1.5 - 558k数据集训练连接器,以实现视觉编码器与LLM的对齐。第二阶段,冻结视觉编码器,在MammoTH - VL数据集的1000万样本子集(包含单图像样本)上训练LLM和连接器。最后阶段,在第二阶段数据的500万样本子集上,将视觉编码器从全精度(W16A16)训练为1.58位权重和8位激活(W1.58A8)。第三阶段的训练数据包含多达100亿个token,潜在表示的蒸馏损失由系数γ=0.1加权。根据建议,我们在指令微调时使用较大的学习率。训练在8张配备80GB内存的NVIDIA A100显卡上进行,耗时14天。

机器人操作实验

1)基准测试

采用LIBERO模拟环境来评估机器人操作模型的泛化能力和性能。如图4所示,该基准从四个关键维度评估机器人智能:空间泛化(操作以新构型排列的物体)、物体泛化(适应前所未见的物体类别)、目标泛化(理解多样化的语言指令)和长时推理(执行涉及多种物体、布局和目标的多阶段任务)。这些能力通过四个对应的任务套件系统评估,即LIBERO - Spatial、LIBERO - Object、LIBERO - Goal和LIBERO - Long,每个套件包含500个专家演示,均匀分布在10个不同的操作任务中。

2)实现细节

微调时,使用与OpenVLA - OFT相同的训练数据集。处理来自腕部相机和外部相机的同步多视图视觉输入,同时编码末端执行器位置等本体感受信号。通过基于MLP的投影仪将物理状态测量投影为单个token,再附加到图像token上。动作分块方面,按OpenVLA - OFT将块大小设为K=8,执行完整块后再重新规划。

所有实验均进行全参数微调以加速收敛。BitVLA在LIBERO - Spatial、LIBERO - Object和LIBERO - Goal上微调10k步,在LIBERO - Long上微调100k步。采用余弦衰减学习率策略,批量大小为64。10k步的微调过程在8张80GB内存的NVIDIA A100显卡上约需4小时。

3)基线对比

在LIBERO数据集的监督微调场景下,将BitVLA与多种基线模型进行对比,包括OpenVLA - OFT、OpenVLA、SpatialVLA、CoT - VLA、NORA - Long和π0。其中,π0采用基于预训练VLM的流匹配架构。NORA基于强轻量级VLM Qwen2.5 - VL - 3B训练以提升效率,采用其NORA - Long变体,可一次生成五步动作序列;CoT - VLA通过在动作生成前自回归预测未来帧,引入视觉思维链推理;SpatialVLA融入3D信息,学习通用操作策略;OpenVLA是在OXE数据集上训练的7B开源VLA模型,在诸多任务中超越RT - 2 - X等闭源模型;OpenVLA - OFT从OpenVLA微调而来,借助并行解码和连续动作建模等技术,提升特定任务的速度与性能。由于资源限制,BitVLA未在大规模机器人数据集上预训练,因此我们也报告了OpenVLA - OFT直接从基础VLM微调的结果作为参考。

4)主要结果

表1总结了BitVLA与各基线在LIBERO基准套件上的成功率。尽管BitVLA未在大规模机器人数据集(如Open X - Embodiment)上预训练,但仍超越了包括π0和NORA - Long在内的30亿参数强基线。尤其在LIBERO - Long任务上,BitVLA比π0高出2.4%,凸显其在机器人操作长时推理任务中的有效性。此外,BitVLA内存占用仅1.4GB,可轻松部署在单张消费级GPU(如NVIDIA GeForce RTX 3050 Ti Laptop 4GB)上。

与更大规模的OpenVLA - OFT模型相比,BitVLA在LIBERO基准的Spatial、Object和Goal子集上性能相当,但在LIBERO - Long上稍显不足。我们认为这一差距源于OpenVLA - OFT从OpenVLA的微调过程,其受益于大规模机器人预训练,因此在复杂操作任务中表现更优。如表所示,大规模机器人数据集预训练使OpenVLA - OFT在LIBERO - Long上的成功率从86.5%提升至94.5%。值得注意的是,与未进行机器人预训练的OpenVLA - OFT变体相比,BitVLA在LIBERO - Long上性能相当。

5)与后训练量化的对比

将BitVLA与经过8位和4位后训练量化的OpenVLA及OpenVLA - OFT模型进行对比。使用Hugging Face上公开的微调模型,借助bitsandbytes工具包将模型骨干转换为INT8和INT4精度。表2报告了量化模型在LIBERO基准上的内存占用和性能表现。可见,OpenVLA在4位量化下的性能退化比OpenVLA - OFT更明显。值得关注的是,BitVLA在性能上可与4位量化的OpenVLA - OFT媲美,但内存占用不足其1/3。

视觉问答实验

评估了配备全精度和1.58位视觉编码器的BitVLA在视觉问答(VQA)任务上的零样本性能。评估套件包括MMMU、SeedBench、SeedBench - 2 - Plus、MMStar和AI2D,采用公开的LMM - Eval工具包以确保对比的公平性和一致性。如表3所示,配备1.58位编码器的BitVLA性能与全精度版本相当。具体而言,1.58位编码器在五个基准上的平均准确率仅下降1.5%,同时将内存占用从0.8GB降至0.1GB。这些结果表明,蒸馏感知训练在显著降低推理内存消耗的同时,有效保留了通用VQA任务的性能。

消融实验

1)表示对齐损失

如表4所示,引入对齐损失显著提升了配备1.58位视觉编码器的BitVLA的零样本性能,在五个VQA基准上的平均准确率从42.4%提升至50.8%。在针对特定任务微调的LIBERO基准套件上,性能提升虽较小但仍有意义,如表5所示,对齐损失使LIBERO - Goal集的成功率提高了2.4%。

2)蒸馏感知训练数据量

对比了在蒸馏感知训练(第三阶段)中使用50亿和100亿token训练的BitVLA性能。如表4所示,在视觉编码器的量化感知训练中增加训练数据,可提升通用VQA任务的整体性能。具体而言,第三阶段使用100亿token训练的BitVLA,平均准确率比50亿token训练的版本高出0.7%。此外,在LIBERO基准上,100亿token训练的模型微调后平均准确率提升1.2%。

参考

[1] BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

论文辅导计划

具身智能干货社区

具身智能之心知识星球是国内首个具身智能开发者社区,也是最专业最大的交流平台,近1500人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、VLA、VLN、具身大脑、具身小脑、大模型、视觉语言模型、强化学习、Diffusion Policy、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近30+学习路线、40+开源项目、近60+具身智能相关数据集。

全栈技术交流群

具身智能之心是国内首个面向具身智能领域的开发者社区,聚焦大模型、视觉语言导航、VLA、机械臂抓取、Diffusion Policy、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向,目前近60+技术交流群,欢迎加入!扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值