总览
这是开启VLA&VLM学习的第一篇论文记录,这个系列主要用于记录一些经典的VLA&VLM方法和对应的思考。持续思考持续提升。其实开始做VLM已经有几个月的时间了,但是没有系统的了解过整个VLM&VLA的框架和知识。
【paper】https://arxiv.org/pdf/2406.09246
【code】
主要创新
- 指出之前VLA模型的主要问题:1)大多是闭源模型;2)可迁移性差,适配一个新的机型/任务,需要完全重新训练;
- 提出了一个开源的7B VLA模型-OpenVLA,性能超越之前闭源RT-2-X,并且具备泛化迁移能力;
- 探究了一系列VLA模型结构、训练方式的配置细节,部分得到的结论和先前常识不太一样;
模型结构
- Vision Enc(600M):单帧图像分别过DinoV2和SigLIP后,Channel-wise进行concat。之所以用两个Enc,是作者经过实验发现这样(增加DINOv2)对于spatial reasoning能力有明显提升;
- Projector:2层MLP,对其vision&language特征空间;
- LLM(7B):Llama-7B
- VLM pretrain:整体基于LlaVA 1.5 data mixture进行finetune,作为pretrain model
- Action Decoder:将训练数据中1%-99%的动作,离散化成256个meta action。然后通过这256个离散动作控制机器人。这里面注意,Llama做SFT只支持最多100个新special token,所以需要把利用最少的256个special token给覆盖掉,供Action Decoder使

最低0.47元/天 解锁文章
1350

被折叠的 条评论
为什么被折叠?



