FROZEN TRANSFORMERS IN LANGUAGE MODELS ARE EFFECTIVE VISUAL ENCODER LAYERS

大型语言模型在视觉任务中的冷冻Transformer效应

最新推荐文章于 2025-11-25 12:11:01 发布

UnknownBody

最新推荐文章于 2025-11-25 12:11:01 发布

阅读量745

点赞数

CC 4.0 BY-SA版权

文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/133940249

LLM 日更专栏收录该内容

828 篇文章

已下架不支持订阅

研究表明，未经视觉数据训练的大型语言模型（LLM）可以作为强大的视觉编码器，通过预训练的冷冻Transformer块处理视觉输入。这种方法在图像分类、动作识别、运动预测及多模态任务中提升性能，表明LLM对视觉信息的处理具有普遍有效性。提出的‘信息过滤假设’解释了预训练LLM在视觉编码中的作用，即它们能识别并放大相关信息。该工作有望推动LLM在更多领域的应用研究。

本文是LLM系列文章，针对《FROZEN TRANSFORMERS IN LANGUAGE MODELS ARE EFFECTIVE VISUAL ENCODER LAYERS》的翻译。

摘要

本文揭示了大型语言模型（LLM），尽管仅根据文本数据进行训练，但在没有语言的情况下，对于纯视觉任务来说，它是令人惊讶的强大编码器。更有趣的是，这可以通过一种简单但以前被忽视的策略来实现——使用来自预训练LLM的冻结transformer块作为组成编码器层来直接处理视觉标记。我们的工作突破了利用LLM进行计算机视觉任务的界限，大大偏离了传统实践，传统实践通常需要多模式视觉语言设置以及相关的语言提示、输入或输出。我们证明，我们的方法在各种任务中始终提高了性能，包括纯2D和3D视觉识别任务（例如，图像和点云分类）、时间建模任务（例如动作识别）、非语义任务（例如运动预测）和多模态任务（例如，2D/3D视觉问答和图像文本检索）。这种改进是一种普遍现象，适用于各种类型的LLM（例如LLaMA和OPT）和不同的LLMtransformer块。我们还提出了信息过滤假设，以解释预训练LLM在视觉编码中的有效性——预训练的LLMtransformer块识别信息性视觉标记，并进一步放大其效果。这一假设得到了经验上的支持，即在用LLMtransformer块训练后，特征激活对相关区域表现出更强的关注。我们希望我们的工作能激发我们对利用LLM的新观点，并加深我们对其潜在机制的理解。代码在https://github.com/ziqipang/LM4VisualEncoding可见.