NVlabs/VILA项目数据准备全流程解析

NVlabs/VILA项目数据准备全流程解析

VILA VILA - A multi-image visual language model with training, inference and evaluation recipe, deployable from cloud to edge (Jetson Orin and laptops) VILA 项目地址: https://gitcode.com/gh_mirrors/vil/VILA

项目概述

NVlabs/VILA是一个先进的视觉语言模型项目,其训练过程分为三个阶段:投影器初始化、预训练和监督微调(SFT)。每个阶段都需要特定的数据集支持,本文将详细解析这些数据集的获取与处理流程。

数据集概览

VILA项目使用了多种类型的数据集,主要包括:

  1. 投影器初始化阶段:使用CC3M数据集
  2. 预训练阶段:使用MMC4-core、COYO-700M和ShreGPT4V_pretrain数据集
  3. 监督微调阶段:使用LLaVA-Next混合数据集、VFLAN、WIT等十余种数据集

详细数据准备流程

1. 投影器初始化数据准备

LLaVA-CC3M-Pretrain-595K数据集用于训练视觉语言投影器。这个数据集包含了59.5万个样本,是构建视觉与语言之间桥梁的基础。

2. 预训练阶段数据准备

MMC4-Core数据集处理

MMC4-Core是MMC4数据集的核心子集,处理流程如下:

  1. 获取原始数据:需要申请访问权限获取非fewer-face分片的标注数据
  2. 图像爬取:使用mmc4_downloader.py脚本下载图像
    • 可并行处理加速下载:python mmc4_downloader.py <start_idx> <end_idx>
  3. 数据过滤:运行mmc4_filter_and_counter.py去除无效样本
  4. 数据合并:使用mmc4_merger.py将图像和文本合并为统一的pickle文件

技术要点:由于图像URL可能过期,实际获取的数据可能是原始集合的子集。

COYO-700M数据集处理
  1. 元数据下载:获取完整的COYO-700M元数据
  2. 图像爬取:对128个分片分别处理,仅保留CLIP相似度最高的20%样本以保证数据质量
  3. 数据分片:使用coyo_splitter.py将数据分割为多个分片

3. 监督微调(SFT)阶段数据准备

LLaVA-1.5指令数据

使用LLaVA-Instruct-150K数据集中的混合665K样本文件,这是高质量的指令微调数据集。

VFlan数据集处理
  1. 文本FLAN
    • 下载原始FLAN数据集
    • 预处理并从3.78亿样本中采样100万数据
  2. M3IT数据集
    • 下载完整M3IT数据集
    • 进行预处理
    • (可选)分割数据以减少训练时的内存压力
其他重要数据集
  1. LLaVA-Next混合数据集:遵循特定指南准备的数据混合
  2. Shot2Story:需要下载视频文件和对应的JSON标注
  3. Video_ChatGPT:视频指令数据集
  4. Youcook2和Vatex:烹饪和视频描述数据集,需分别下载视频和JSON标注
  5. WIT:从原始WIT数据集中采样53.8万英文数据并转换为对话格式
  6. GSM8K-ScRel-SFT:数学推理数据集
  7. Sherlock:视觉推理数据集,图像来自VisualGenome和VCR
  8. ScienceQA:科学问答数据集,使用训练分片

数据处理最佳实践

  1. 并行处理:对于大规模数据集如MMC4和COYO,使用分片并行处理可以显著提高效率
  2. 数据质量筛选:如COYO中仅保留高质量样本(CLIP相似度前20%)
  3. 内存优化:对于特别大的数据集,可分割为多个块以减少训练时的内存压力
  4. 格式统一:所有数据最终都转换为统一的对话格式JSON文件

常见问题解决方案

  1. 图像URL过期:这是网络数据集的常见问题,建议定期更新数据集或建立本地缓存
  2. 数据规模过大:可采用子采样策略,如COYO中的20%高质量样本选择
  3. 格式转换:使用项目提供的预处理脚本确保数据格式一致性

总结

NVlabs/VILA项目的数据准备流程体现了现代多模态模型训练的数据需求特点:大规模、多样化、高质量。通过分阶段使用不同类型的数据集,项目实现了从基础视觉语言对齐到复杂多模态理解的完整训练流程。理解这些数据准备步骤对于复现或改进模型至关重要。

VILA VILA - A multi-image visual language model with training, inference and evaluation recipe, deployable from cloud to edge (Jetson Orin and laptops) VILA 项目地址: https://gitcode.com/gh_mirrors/vil/VILA

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

芮妍娉Keaton

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值