
large model
文章平均质量分 94
大模型相关论文(根据自己的阅读和研究路程来看)
call me by ur name
从此以后
展开
-
Vision as LoRA论文解读
我们提出了“视觉即低秩适应”(Vision as LoRA,VoRA),这是一种将大语言模型(LLM)转变为多模态大语言模型(MLLM)的全新范式。与普遍采用的依赖外部视觉模块进行视觉编码的MLLM架构不同,VoRA通过将特定于视觉的低秩适应(LoRA)层直接集成到LLM中,实现了视觉能力的内化。这种设计使得在推理过程中,新增的参数能够无缝地合并到LLM中,消除了结构复杂性,并将计算开销降至最低。此外,VoRA继承了LLM处理灵活上下文的能力,可以处理任意分辨率的输入。原创 2025-05-01 12:27:47 · 264 阅读 · 0 评论 -
字节 SAIL 论文解读
本文介绍了SAIL,这是一种基于单Transformer的统一多模态大语言模型(MLLM),它在单一架构中集成了原始像素编码和语言解码功能。与现有的依赖预训练视觉Transformer(ViT)的模块化MLLMs不同,SAIL无需单独的视觉编码器,呈现出更为简约的架构设计。。我们系统地比较了SAIL与模块化MLLMs在可扩展性、跨模态信息流模式和视觉表示能力等方面的特性。通过扩展训练数据和模型规模,SAIL取得了与模块化MLLMs相当的性能。原创 2025-04-22 13:10:37 · 920 阅读 · 0 评论 -
PyramidDrop: Accelerating Your Large Vision-Language Models via Pyramid Visual Redundancy Reduction
在大型视觉语言模型(LVLMs)中,图像作为携带丰富信息的输入源。正如"一图胜千言"这一成语所喻,当前LVLMs中表示单幅图像可能需要数百甚至数千个标记(tokens)。这种情况导致了显著的计算成本,且随着输入图像分辨率的提升呈二次方增长,从而严重影响了效率。以往的方法尝试在LVLMs的早期阶段之前或内部减少图像标记的数量,但这些策略不可避免地会导致关键图像信息的丢失。为应对这一挑战,我们通过实证研究发现:在浅层网络中,所有视觉标记对LVLMs都是必要的;而随着网络深度增加,标记冗余度逐步提升。原创 2025-04-10 17:54:00 · 579 阅读 · 0 评论 -
LLAVA-MINI: EFFICIENT IMAGE AND VIDEO LARGE MULTIMODAL MODELS WITH ONE VISION TOKEN 论文解读
像GPT-4o这样的实时大型多模态模型(LMMs)的出现,引发了人们对高效LMMs的浓厚兴趣。LMM框架通常会将视觉输入编码为视觉令牌(连续表示),并将其与文本指令整合到大语言模型(LLMs)的上下文环境中。在这种情况下,大规模的参数和大量的上下文令牌(主要是视觉令牌)会导致巨大的计算开销。以往提高LMM效率的工作总是聚焦于用较小的模型替换LLM主干,却忽略了令牌数量这一关键问题。在本文中,我们推出了LLaVA-Mini,这是一种高效的大型多模态模型,仅需极少的视觉令牌。原创 2025-04-01 10:29:33 · 1024 阅读 · 0 评论 -
Feather the Throttle: Revisiting Visual Token Pruning for Vision-Language Model Acceleration 论文解读
近期关于加速视觉语言模型的研究表明,即便对视觉信息进行高度压缩,模型仍能在各种视觉语言任务中保持强大的性能。在这项研究中,我们对语言模型中流行的早期视觉令牌剪枝加速方法进行了探究,发现该方法在众多任务中表现出色,并非源于其卓越的视觉信息压缩能力,而是。具体而言,我们揭示了这种加速方法存在的一个核心问题,即图像顶部的大多数令牌被剪掉了。然而,这个问题仅在诸如定位等一小部分任务的性能中有所体现。对于其他评估任务,即便采用有缺陷的剪枝策略,模型仍能保持较高的性能。原创 2025-03-24 16:24:21 · 882 阅读 · 0 评论 -
CLIP-Adapter: Better Vision-Language Models with Feature Adapters 论文解读
大规模对比视觉-语言预训练在视觉表示学习方面取得了显著进展。与传统的通过固定一组离散标签训练的视觉系统不同,(Radford et al., 2021) 引入了一种新范式,该范式在开放词汇环境中直接学习将图像与原始文本对齐。在下游任务中,通常需要精心设计的文本提示来进行零样本预测。为避免复杂的提示工程,(Zhou et al., 2021) 提出了上下文优化方法,利用少量样本学习连续向量作为任务特定的提示。在本文中,我们展示了除了提示调优之外,还有一条实现更优视觉-语言模型的替代路径。提示调优是针对文本输入原创 2024-11-23 22:41:16 · 1976 阅读 · 0 评论 -
A Survey on Multimodal Large Language Models论文解读
指令:指任务的描述。指令调整目的:教导模型更好地理解用户指令并完成要求任务,从而使模型能够通过遵循新指令来泛化到未见任务,提高零样本性能。与相关学习范式比较:与监督式微调和提示工程相比,指令调整学习如何泛化到未见任务,而不是拟合特定任务。对齐调整通常用于需要模型与特定人类偏好对齐的场景,例如减少幻觉(hallucinations)的响应。目前,强化学习与人类反馈(RLHF)和直接偏好优化(DPO)是对齐调整的两种主要技术。原创 2024-10-13 16:43:51 · 1627 阅读 · 0 评论 -
Vision-Language Models for Vision Tasks: A Survey 论文解读
总体而言,VLM预训练通过不同的跨模态目标建模视觉-语言关联,例如图像-文本对比学习、掩码跨模态建模、图像到文本生成,以及图像-文本/区域-单词匹配。同时,还探索了各种单模态目标以充分挖掘各自模态的数据潜力,例如针对图像模态的掩码图像建模和针对文本模态的掩码语言建模。从全局层面来看,近期的VLM预训练专注于学习视觉-语言的全局关联,这对于图像级别的识别任务(如图像分类)非常有益。原创 2024-11-21 22:54:10 · 1772 阅读 · 0 评论