3.4.1 VLM/LLM 作为规划器
目标:把自然语言指令(“把红色盒子放到桌子上”)转化为一条可直接送给机器人执行的动作序列
- 输入:自然语言描述 + 当前视觉状态
- 输出:动作列表
[(action_name, params), …],例如[("move_to", {"x":1.2,"y":0.5}), ("grasp", {}), ("lift", {}), ("place", {"table_id": 3})]
下面给出一套可直接运行的 Python 示例(基于 PyTorch、HuggingFace Transformers 和 OpenAI‑style LLM API),并在每一步都加上注释与优化技巧。
⚠️ 说明
- 视觉编码器采用 CLIP ViT‑B/32 或者 ResNet‑50,输出一个 512‑维向量。
- 所有的网络均在 CUDA 上运行,使用
torch.compile(PyTorch 2.0)来加速推理。- 机器人控制层采用伪接口
RobotInterface;请根据实际 SDK 替换。
订阅专栏 解锁全文
54

被折叠的 条评论
为什么被折叠?



