
论文主要内容和创新点总结
主要内容
本文提出了Language-Unlocked Vision Transformers(LUViT),一种将自监督视觉Transformer(ViT)与大型语言模型(LLMs)融合的新框架,旨在解决LLMs(文本预训练)与ViTs(视觉训练)之间的模态不匹配问题,从而提升纯视觉任务的性能。
LUViT的核心是协同预训练策略:
- 采用掩码自编码(MAE)预训练ViT,使其学习更丰富的视觉表征;
- 同时通过低秩适应(LoRA)对LLM块进行适配训练,利用MAE的重构损失实现ViT与LLM块的联合优化。
该策略让ViT生成“LLM友好”的视觉特征,同时让LLM学会解读这些特征,最终在图像分类、目标检测等下游任务中表现出更优性能和鲁棒性。
创新点
- 协同预训练机制:首次将ViT的MAE预训练与LLM块的LoRA适配结合,通过联合优化解决模态不匹配,而非冻结LLM仅训练视觉组件;
- 高效LLM适配:使用LoRA对LLM进行轻量级适配,避免全量微调的计算成本和灾难性遗忘问题,同时保留LLM的语义知识;
LUViT:协同预训练赋能视觉Transformer
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



