Retrieval-Augmented Multimodal Language Modeling

最新推荐文章于 2025-11-24 18:29:32 发布

UnknownBody

最新推荐文章于 2025-11-24 18:29:32 发布

阅读量931

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/132407987

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

本文提出了一种检索增强的多模态模型RA-CM3，结合预训练的CLIP检索器和CM3生成器，可以从外部存储器中检索相关文本和图像，提高图像和字幕生成的性能，同时降低训练成本。RA-CM3在多个任务上超越DALL-E和CM3，并展示了知识密集型图像生成和多模态上下文学习的能力。

本文是LLM系列文章，针对《Retrieval-Augmented Multimodal Language Modeling》的翻译。

摘要

最近的多模态模型，如DALL-E和CM3，在文本到图像和图像到文本生成方面取得了显著进展。然而，这些模型将其所有知识（例如，埃菲尔铁塔的外观）存储在模型参数中，需要越来越大的模型和训练数据来获取更多的知识。为了以更具可扩展性和模块化的方式集成知识，我们提出了一种检索增强的多模态模型，该模型使基础多模态模型（生成器）能够引用检索器从外部存储器（例如，网络上的文档）中提取的相关文本和图像。具体来说，对于检索器，我们使用预训练的CLIP，对于生成器，我们在LAION数据集上训练CM3 Transformer。我们得到的模型名为Retrieval Augmented CM3（RA-CM3），是第一个可以检索和生成文本和图像的多模态模型。我们发现，RA-CM3在图像和字幕生成任务上显著优于基线多模态模型，如DALL-E和CM3（MS-COCO的12个FID和17个CIDEr改进），同时训练所需的计算量要少得多（<DALLE的30%）。此外，我们发现RA-CM3表现出了新的能力，如忠实的图像生成和多模态上下文学习（例如，从演示中生成图像）