对VLM和VLA的一点感想

最新推荐文章于 2025-05-30 08:05:08 发布

ZipingCong

最新推荐文章于 2025-05-30 08:05:08 发布

阅读量205

点赞数 1

文章标签：人工智能

本文链接：https://blog.youkuaiyun.com/LehrerMa/article/details/146969811

版权

最近的项目进度使用LLaVA框架来实现VLA。对于大语言模型来说，数据集的构造以及Prompt的设计很重要。在LLaVA训练框架下，1. alignment需要尽可能的让text全面描述视觉特征，甚至于逐帧的描述。2. finetune时的prompt，也需要尽可能对当前的visual features进行描述。以显式的方式作为prompt提示给LLM，都有助于VLA实现连续控制的鲁棒性，提高推理的准确性。

除了扩大数据集提升泛化性以及RAG的引入，其实还可以引入一些修正机制，来避免推理错误的动作API执行。甚至可以在明显推理错误时，重新对当前scenario进行推理。

以上，

2025年4月3日凌晨2:30