最近的项目进度使用LLaVA框架来实现VLA。对于大语言模型来说,数据集的构造以及Prompt的设计很重要。在LLaVA训练框架下,1. alignment需要尽可能的让text全面描述视觉特征,甚至于逐帧的描述。2. finetune时的prompt,也需要尽可能对当前的visual features进行描述。以显式的方式作为prompt提示给LLM,都有助于VLA实现连续控制的鲁棒性,提高推理的准确性。
除了扩大数据集提升泛化性以及RAG的引入,其实还可以引入一些修正机制,来避免推理错误的动作API执行。甚至可以在明显推理错误时,重新对当前scenario进行推理。
以上,
2025年4月3日凌晨2:30