Qwen Qwen2.5-VL 11 预训练包含三个阶段:视觉预训练: 仅训练 ViT,使用图像标题、视觉知识和 OCR 数据。 多模态预训练: 解冻所有模型参数,使用交错数据、VQA、视频、智能体等多种数据。 长上下文预训练: 引入视频、智能体数据,并增加序列长度。 Llama