论文解读 - 统一的多模态理解和生成模型综述(下)

五、统一模型的数据集

大规模、高质量且多样化的训练数据是构建强大的统一多模态理解和生成模型的基础。这些模型通常需要在大量图像-文本对上进行预训练,以学习跨模态的相关性和表示。需要注意的是,在大规模多模态数据上进行训练之前,这些模型往往使用从大型自然语言语料库中训练得到的参数初始化,例如Common Crawl 1、RedPajama、WebText等。由于本综述主要关注多模态模型,因此本节讨论将不包括纯文本数据。根据主要用途和模态特征,常见的预训练多模态数据集可以大致分为:多模态理解数据集、文本到图像生成数据集、图像编辑数据集、交织图像-文本数据集以及其他基于文本和图像输入的图像生成数据集。本节将详细阐述表3中列出的每个类别中的代表性数据集,重点关注2020年以后发布的数据集。

5.1  多模态理解数据集

这些数据集主要用于训练模型的跨模态理解能力,支持图像描述、视觉问答(VQA)、图像文本检索和视觉定位等任务。它们通常包含大量图像集合,并配有相应的文字描述。

RedCaps :该数据集包含来自Reddit的1200万张图片和文字对。它特别专注于捕捉用户在社交媒体平台上 经常分享的日常物品和时刻(如宠物、爱好、食物、休 闲等)。

Wukong:Wukong数据集是一个大规模的中文多模态预训练数据集,包含从网络中筛选出的1亿个中文图像-文本对。其创建旨在解决大规模、高质量中文多模态预训练数据的缺乏问题,显著促进了针对中文场景的多模态模型的发展。

 LAION :LAION(大规模人工智能开放网络)项目提供了最大的公开可用的图像-文本对数据集之一。例如,LAION-5B包含了近60亿个从网络爬取的图像-文本对。这些数据经过过滤使用CLIP模型旨在确保图像与文本之间具有一定的关联性。由于其庞大的规模和多样性,LAION数据集已成为许多大型多模态模型预训练的基础。其子集Laion-COCO包含了6亿个高质量的样本,旨在提供一个风格更接近MS COCO的大规模数据集。

COYO :COYO是另一个大规模的图像-文本对数据集,包含大约7.47亿个样本。与LAION类似,它来源于网络爬取并经过过滤处理。它为社区提供了LAIONl的一个替代的大规模预训练资源。

 DataComp:DataComp包含来自 Common Crawl的1.40亿个样本,使用精心设计的过滤策略(CLIP评分和基于图像的过滤),旨在提供比原始爬取数据更高质量的图像-文本对。

ShareGPT4V:该数据集提供了大约10万高质量的图像-文本对话数据点。它专门设计并用于增强大型多模态模型的指令遵循和对话能力,使其成为更好的对话代理。

CapsFusion-120M :这是一个从LaionCOCO中选取的120M图像-文本对的大规模集合。标题是通过将Laion-COCO中的标题与CapsFusionLLaMA 整合获得的。

其他数据集:最近开发的额外理解数据集包括GRIT(基于网格的图像-文本表示)(包含2000万个样本, 强调细粒度的图像区域-文本短语对齐)。此外,尽管 SAM数据集最初并不包含图像-文本对,但1100万张高分辨率图像及其详细的分割掩码提供了宝贵的空间和语义信息。可以增强多模态模型的细粒度理解能力,如理解物体位置、边界或执行特定区域的操作等。此外,文本到图像模型的数据也可以用于多模态理解任务。

5.2  文本到图像数据集

这些数据集主要用于训练生成与文本描述相对应的图像的模型。它们通常由图像-文本对组成,通常更强调图像的美学质量、内容的丰富性或特定的风格属性。

CC-12M(Conceptual Captions 12M):CC-12M包含从网络Alt-text中提取和过滤的1200万张图像-文本 对。与原始网络爬取数据相比,其文本描述通常更加简洁和描述性,因此被广泛用于训练文本到图像模型。

LAION-Aesthetics:这是LAION数据集的一个子集,使用美学评分模型过滤,选择大约1.2亿张被认为具有更高“美学价值 ”的图像(及其文本)。

Mario-10M和AnyWord-3M:这两个数据集专注于图像中文字的准确渲染。Mario-10M(1000万个样本),用于训练TextDiffuser模型,以及AnyWord-3M(300万个样本),用于训练AnyText,提供了专门设计的数据,旨在提高图像生成文字的可读性和位置。

JourneyDB: JourneyDB由Midjourney平台生成的400万个高质量图像提示对组成。由于Midjourney以生成创意

评论 4
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值