基于PySpark的10亿级数据集LAION-5B元数据快速处理实践(全文分享)

文章介绍了如何处理和下载大规模多模态数据集LAION-5B,包括数据集的结构、遇到的问题,以及使用Parquet元数据的处理流程,提供了经过优化的Parquet文件和图片下载代码,帮助研究人员更有效地获取和使用LAION-5B数据。

推荐语

多模态大模型训练如火如荼展开,但以LAION-5B为代表的大规模多模态数据集获取却成了一个令人头疼的问题。

OpenDataLab两位工程师在浦数 AI Talk做了非常实用的LAION-5B下载经验分享,我们整理了其演讲内容、Parquet文件图片下载工具,希望能对大家下载同类数据集提供帮助和参考。以下为全文内容:


一、 数据集背景

根据历史研究发现,随着训练数据增加时,ALIGN、BASIC、Turing Bletchly、FLORENCE和GLIDE等大型多模态视觉语言模型在新的缺少样本标签的数据集上也有很强的迁移能力,而且性能还在稳定提高。但这些模型需要数十亿的图文数据才有达到良好的效果,到2022年为止,还没有十亿规模的公开图文对数据集。

直到LAION-5B发布,该数据集由5.85Billoin CLIP过滤的图像文本对组成,它为多模态预训练提供非常重要的“燃料”。(之前我们写过LAION-5B数据集解读,戳此回顾:80TB!58.5亿!世界第一大规模公开图文数据集LAION-5B 解读

二、 LAION-5B 数据集结构

根据官方文件统计,LAION-5B数据有5,860,068,373个样本,按照语言被官方划分为3个子数据集,分别是:

  1. laion2b-en :2.32 billion of these contain texts in the English language
  2. laion2b-multi :2.26 billion contain texts from 100+ other languages
  3. laion1b-nolang :1.27 billion have texts where a particular language couldn’t be clearly detected.

其中每个数据集官方提供了原始图片的URL,可以根据URL下载图片文件,以及些URL上的标签。 这部分元数据被存储在parquet文件中。样例parquet文件结构如下:

data_sample
├── laion2B-en
│   ├── part-00006-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
│   ├── part-00014-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
│   ├── part-00039-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
│   ├── part-00043-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
│   ├── part-00078-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
│   ├── part-00093-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
│   └── part-00123-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
└── laion2B-multi
    ├── part-00001-fc82da14-99c9-4ff6-ab6a-ac853ac82819-c000.snappy.parquet
    ├── part-00026-fc82da14-99c9-4ff6-ab6a-ac853ac82819-c000.snappy.parquet
    ├── part-00030-fc82da14-99c9-4ff6-ab6a-ac853ac82819-c000.snappy.parquet
    ├── part-00034-fc82da14-99c9-4ff6-ab6a-ac853ac82819-c000.snappy.parquet
    └── part-00125-fc82da14-99c9-4ff6-ab6a-ac853ac82819-c000.snappy.parquet
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值