- paper:https://arxiv.org/pdf/2312.00589.pdf
- code:https://ahnsun.github.io/merlin/
0 Abstract
- 根据观测预测未知是人类的一个能力,对MLLM进行“future modeling”可以更好地激发其潜能;
- 物体轨迹是一种连续帧间高度结构化的表征,是连接过去和未来信息的桥梁;
- 提出两种训练策略,帮助LLM获得这种能力:
- Foresight Pre-Training (FPT):让MLLM学习根据观测预测物体轨迹
- Foresight Instruction-Tuning (FIT):根据预测的轨迹信息,对未来可能发生的事件进行预测
1 Introduction
-
现有的MLLM在预知事件未来上的表现欠佳,甚至在提供多帧信息的情况下:
-
人类进行事件预测通常包括两个步骤,对于MLLM来说,第一个步骤是挑战:
- 观测主体的动态表征(dynamic clues);
- 根据观测分析主体的行为模式和推理可能发生的事情。
-
文章指出:轨迹(trajectory)作为一种高度结构化的表征,可以作为连