基于PySpark的10亿级数据集LAION-5B元数据快速处理实践（全文分享）

原创

已于 2023-06-06 18:52:24 修改 · 2.3k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习 #计算机视觉 #机器学习

于 2023-06-06 18:48:54 首次发布

文章介绍了如何处理和下载大规模多模态数据集LAION-5B，包括数据集的结构、遇到的问题，以及使用Parquet元数据的处理流程，提供了经过优化的Parquet文件和图片下载代码，帮助研究人员更有效地获取和使用LAION-5B数据。

推荐语

多模态大模型训练如火如荼展开，但以LAION-5B为代表的大规模多模态数据集获取却成了一个令人头疼的问题。

OpenDataLab两位工程师在浦数 AI Talk做了非常实用的LAION-5B下载经验分享，我们整理了其演讲内容、Parquet文件、图片下载工具，希望能对大家下载同类数据集提供帮助和参考。以下为全文内容：

一、数据集背景

根据历史研究发现，随着训练数据增加时，ALIGN、BASIC、Turing Bletchly、FLORENCE和GLIDE等大型多模态视觉语言模型在新的缺少样本标签的数据集上也有很强的迁移能力，而且性能还在稳定提高。但这些模型需要数十亿的图文数据才有达到良好的效果，到2022年为止，还没有十亿规模的公开图文对数据集。

直到LAION-5B发布，该数据集由5.85Billoin CLIP过滤的图像文本对组成，它为多模态预训练提供非常重要的“燃料”。（之前我们写过LAION-5B数据集解读，戳此回顾：80TB！58.5亿！世界第一大规模公开图文数据集LAION-5B 解读）

二、 LAION-5B 数据集结构

根据官方文件统计，LAION-5B数据有5,860,068,373个样本，按照语言被官方划分为3个子数据集，分别是：

laion2b-en ：2.32 billion of these contain texts in the English language
laion2b-multi ：2.26 billion contain texts from 100+ other languages
laion1b-nolang ：1.27 billion have texts where a particular language couldn’t be clearly detected.

其中每个数据集官方提供了原始图片的URL，可以根据URL下载图片文件，以及些URL上的标签。这部分元数据被存储在parquet文件中。样例parquet文件结构如下：

data_sample
├── laion2B-en
│   ├── part-00006-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
│   ├── part-00014-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
│   ├── part-00039-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
│   ├── part-00043-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
│   ├── part-00078-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
│   ├── part-00093-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
│   └── part-00123-5114fd87-297e-42b0-9d11-50f1df323dfa-c000.snappy.parquet
└── laion2B-multi
    ├── part-00001-fc82da14-99c9-4ff6-ab6a-ac853ac82819-c000.snappy.parquet
    ├── part-00026-fc82da14-99c9-4ff6-ab6a-ac853ac82819-c000.snappy.parquet
    ├── part-00030-fc82da14-99c9-4ff6-ab6a-ac853ac82819-c000.snappy.parquet
    ├── part-00034-fc82da14-99c9-4ff6-ab6a-ac853ac82819-c000.snappy.parquet
    └── part-00125-fc82da14-99c9-4ff6-ab6a-ac853ac82819-c000.snappy.parquet