前言
在算法的工业应用当中,数据集的获取和清洗往往是一大挑战。比如在AI4S的研究里面就因为数据的格式混乱、标签缺失、噪声巨大从而需要对公开的数据集进行额外的数据清洗工作
因此,本文对一些常见视觉语言模型的数据集构建和处理策略提供调研和归纳,希望能给有类似需求的科研工作者一些参考。
参考的部分信息源:
本文全文近6600字,整理耗时近一周,如果对你有帮助欢迎点赞收藏,或微信扫码支持作者更新~

Qwen2.5‑VL
信息源:
模型简介
Qwen2.5‑VL 是阿里巴巴推出的最新视觉语言模型,具有强大的图像理解、文档解析、视频处理和多模态推理能力。其特点包括原生分辨率处理、绝对时间对齐编码、多尺寸模型发布,以及较强的通用推理与 Agent 能力。
数据规模
Qwen2.5‑VL 预训练使用的数据总量高达 4.1 万亿 tokens,比前一代 Qwen2-VL(1.2 万亿)大幅增加,且模型支持 最长 32,768 tokens 的上下文序列。
数据来源
Qwen2.5‑VL 使用多种来源的多模态数据,涵盖图文对、文档、视频、图表、OCR、多语言文本、Agent 操作轨迹等,部分来源包括公开数据集、合成数据和内部收集数据。
| 数据类型 | 来源类型 |
| 图文交错数据 | 清洗网页原始图文数据(未提及来源) + 内部模型打分筛选 |
| OCR 数据 | 合成数据(视觉文本生成引擎)+ 开源数据 + 内部采集 |
| 图表数据 | 合成(使用 matplotlib / seaborn / plotly) |
| 表格数据 | 真实样本 + 表格识别模型过滤 |
| 视频数据 | 视频采集(未提及来源) + 多帧字幕合成(未展开说明合成策略) + 时间戳格式化 |
| 定位数据 | 公共数据 + 合成数据(Grounding DINO、SAM) |
| 点选数据 | 公共数据(PixMo)+ 合成数据 |
| 文档数据 | 合成数据,统一为 HTML 格式 |
| Agent 感知 | 多平台截图 + UI 元素合成标注 |
| Agent 决策 | 多步操作轨迹(开源 + 合成)+ 推理解释人工生成 |
清洗策略
第一阶段:领域特定分类(Domain-Specific Categorization)
-
使用了一个名为 Qwen2-VL-Instag 的分类模型(由 Qwen2-VL-72B 派生)对问答数据进行层级式的语义分类。
-
这个分类器把问题-答案对划分为 8 个主领域(如 Coding、Planning 等),并进一步细分为 30 个子类(如 Code_Debugging、Code_Generation 等)。
-
这种层级结构有助于实现针对不同领域的定制化清洗策略,优化监督微调(SFT)数据的相关性与质量。
第二阶段:规则 + 模型评分的领域定制过滤(Domain-Tailored Filtering)
规则基础过滤(Rule-Based Filtering)
-
移除低质量样本,如:
-
重复模式和样本;
-
不完整、截断、格式错误的响应(尤其见于合成和多模态数据);
-
伦理风险内容或文本-图像不相关的样本;
-
-
根据任务类别定制过滤策略,例如文档处理、OCR、视觉定位任务有

最低0.47元/天 解锁文章
1208

被折叠的 条评论
为什么被折叠?



