【VLA&VLM——OpenVLA】

总览

这是开启VLA&VLM学习的第一篇论文记录,这个系列主要用于记录一些经典的VLA&VLM方法和对应的思考。持续思考持续提升。其实开始做VLM已经有几个月的时间了,但是没有系统的了解过整个VLM&VLA的框架和知识。
【paper】https://arxiv.org/pdf/2406.09246
【code】

主要创新

  1. 指出之前VLA模型的主要问题:1)大多是闭源模型;2)可迁移性差,适配一个新的机型/任务,需要完全重新训练;
  2. 提出了一个开源的7B VLA模型-OpenVLA,性能超越之前闭源RT-2-X,并且具备泛化迁移能力;
  3. 探究了一系列VLA模型结构、训练方式的配置细节,部分得到的结论和先前常识不太一样;

模型结构

  1. Vision Enc(600M):单帧图像分别过DinoV2和SigLIP后,Channel-wise进行concat。之所以用两个Enc,是作者经过实验发现这样(增加DINOv2)对于spatial reasoning能力有明显提升;
  2. Projector:2层MLP,对其vision&language特征空间;
  3. LLM(7B):Llama-7B
  4. VLM pretrain:整体基于LlaVA 1.5 data mixture进行finetune,作为pretrain model
  5. Action Decoder:将训练数据中1%-99%的动作,离散化成256个meta action。然后通过这256个离散动作控制机器人。这里面注意,Llama做SFT只支持最多100个新special token,所以需要把利用最少的256个special token给覆盖掉,供Action Decoder使
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值