视觉语言模型VLM的数据集构建与处理策略调研

原创

已于 2025-07-03 16:48:27 修改 · 1.5k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2025-06-25 10:31:27 首次发布

前言

在算法的工业应用当中，数据集的获取和清洗往往是一大挑战。比如在AI4S的研究里面就因为数据的格式混乱、标签缺失、噪声巨大从而需要对公开的数据集进行额外的数据清洗工作

因此，本文对一些常见视觉语言模型的数据集构建和处理策略提供调研和归纳，希望能给有类似需求的科研工作者一些参考。

本文全文近6600字，整理耗时近一周，如果对你有帮助欢迎点赞收藏，或微信扫码支持作者更新～

Qwen2.5‑VL 是阿里巴巴推出的最新视觉语言模型，具有强大的图像理解、文档解析、视频处理和多模态推理能力。其特点包括原生分辨率处理、绝对时间对齐编码、多尺寸模型发布，以及较强的通用推理与 Agent 能力。

Qwen2.5‑VL 预训练使用的数据总量高达 4.1 万亿 tokens，比前一代 Qwen2-VL（1.2 万亿）大幅增加，且模型支持 最长 32,768 tokens 的上下文序列。

Qwen2.5‑VL 使用多种来源的多模态数据，涵盖图文对、文档、视频、图表、OCR、多语言文本、Agent 操作轨迹等，部分来源包括公开数据集、合成数据和内部收集数据。

数据类型	来源类型
图文交错数据	清洗网页原始图文数据（未提及来源） + 内部模型打分筛选
OCR 数据	合成数据（视觉文本生成引擎）+ 开源数据 + 内部采集
图表数据	合成（使用 matplotlib / seaborn / plotly）
表格数据	真实样本 + 表格识别模型过滤
视频数据	视频采集（未提及来源） + 多帧字幕合成（未展开说明合成策略） + 时间戳格式化
定位数据	公共数据 + 合成数据（Grounding DINO、SAM）
点选数据	公共数据（PixMo）+ 合成数据
文档数据	合成数据，统一为 HTML 格式
Agent 感知	多平台截图 + UI 元素合成标注
Agent 决策	多步操作轨迹（开源 + 合成）+ 推理解释人工生成

使用了一个名为 Qwen2-VL-Instag 的分类模型（由 Qwen2-VL-72B 派生）对问答数据进行层级式的语义分类。
这个分类器把问题-答案对划分为 8 个主领域（如 Coding、Planning 等），并进一步细分为 30 个子类（如 Code_Debugging、Code_Generation 等）。
这种层级结构有助于实现针对不同领域的定制化清洗策略，优化监督微调（SFT）数据的相关性与质量。