论文阅读笔记——SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model

最新推荐文章于 2025-07-02 12:31:24 发布

寻丶幽风

最新推荐文章于 2025-07-02 12:31:24 发布

阅读量1.1k

点赞数 26

CC 4.0 BY-SA版权

分类专栏：论文阅读笔记文章标签：论文阅读笔记 3DGS 具身智能 VLA 深度学习

本文链接：https://blog.youkuaiyun.com/Multiple_x/article/details/146849521

论文阅读笔记专栏收录该内容

48 篇文章

订阅专栏

SpatialVLA 论文
将 VLA 赋予三维空间理解，面临两个问题：1）不同机械构型的观测数据缺乏三维对齐性（摄像头传感器不同且安装位置不同 -> 得到的三维空间不同）；2）异构机器人的自由度、运动控制等不同 -> 动作空间不同。SpatialVLA 通过 Ego3D 位置编码（基于自我中心相机坐标系）以及自适应动作网格统一各个机器人动作空间，通过自回归预测（chunk=4）。
在这里插入图片描述

Ego3D Position Encoding

先用 SigLIP 提取视觉-语言对齐的 2D 语义特征 $\boldsymbol{X} \in R^{d×h×w}$ ，然后采取 ZoeDepth 估计深度图 D，通过相机内参反投影 $\pi^{-1}$ 得到像素在 egocentric 坐标系中的 $\boldsymbol{P} \in R^{3×h×w}$ ，然后通过正弦函数与可学习的 MLP 得到最终位置编码：
$\boldsymbol{O}_{3d}=\boldsymbol{X}+\boldsymbol{P}^{'}=\boldsymbol{X}+MLP(\gamma(\boldsymbol{P}))$

Adaptive Action Grids

对于单臂机器人，定义动作空间： $a=\{a_{trans},a_{rot},a_{grip}\}$ 其中平移动作 $a_{trans}=\{x,y,z\}=\{\phi,\theta,r\}$ (xyz -> 极坐标系)，旋转动作 $a_{rot}=\{roll,pitch,yaw\}$ ，夹爪动作 $a_{grip}$ 开合二值动作。
将连续动作空间离散化：

归一化：对于平移 $\{\phi,\theta,r\}$ 和旋转 ${roll,pitch,yaw\}$ ，归一化至 $[- 1, 1]$ 。
高斯拟合：基于混合数据集统计动作分布，拟合高斯分布 $\mathcal{N}(\mu^a,\sum^a)$
等概率划分：将连续动作 $[- 1, 1]$ 分为 M 个区间并且确保都为 1/M 概率： $a_2, ……,a_M=argmin|\int_{a_i}^{a_{i+1}}f(x)dx-\frac{1}{M}|,\quad i=1,……,M$ （高斯分布曲线下面积分为 M 份，每份面积相等）

方向优先：为 $(\phi,\theta)$ 分配更多区间（5° 和 10° 的差别大于 0.1 米和 0.12 米的差别）
$M_\phi,M_\theta,M_r$ 为 $(\phi,\theta,r)$ 的区间数，得到 $M_{trans}=M_\phi · M_\theta · M_r$ 和 $M_{rot}=M_{roll} ·M_{yaw} ·M_{pitch}$
tokens： $V =M_{trans}+M_{yaw}+2$
在这里插入图片描述
采用大规模跨机器人预训练+特定机器人微调（如果动作空间不同，则重新初始化 $E_a$ ）。
对于新机器人（动作空间不同），（按照前文）从数据集中重新拟合动作分布，再得到新的动作网格。对每个新网格 $G^{new}_i$ 找到预训练网格中最邻近的 K 个网格，采取三线性插值初始化：
$e_i^\mathrm{new}=\sum_{j=1}^Kw_je_j,\quad w_j=\frac{1/d_j}{\sum_{k=1}^K1/d_k}$
其中 $e_j$ 为预训练网格 $G_j$ 的嵌入向量， $d_j$ 为新网格与预训练网格中心的欧氏距离。（继承预训练动作的语义和空间关系）