- 博客(22)
- 问答 (1)
- 收藏
- 关注
原创 【多模态新对齐框架】Vision as LoRA
来自字节,MMLM,LORA,2025年3月26发布在arxiv突破传统 MLLM 结构(预训练视觉编码器、LLM、Connector)将视觉信息编码到LoRA模块中,不依赖外部视觉编码器,也无需对LLM进行训练。通过分块蒸馏方法将预训练视觉编码器的信息转移到LoRA中,加速训练。主要动机应该就是使用LoRA技术对视觉信息和LLM信息进行对齐。难点1:如何利用LoRA模块融合视觉信息?也就是怎样进行模型训练可以实现视觉信息与LLM的对齐难点2:LoRA模块如此轻量如何承载大量视觉信息?
2025-04-02 10:50:41
828
原创 【图像分块、图像分辨率固定要求、位置编码】
比如一个224*224的图像,则需要224*224*dim的矩阵来表示这张图。但插值后的编码未在训练中见过,可能破坏空间关系的建模,使模型性能显著下降(典型实验显示分类准确率下降3-5%)。:如VoRA利用LLM的序列建模能力,将图像视为变长token序列,通过双向注意力隐式建模空间关系,完全摒弃显式位置编码。:将任意分辨率图像缩放至固定尺寸(如224×224),虽能直接适配模型,但会导致高频细节丢失(如文字模糊、小物体失真)。在推理阶段,对预训练的位置编码矩阵进行数学插值,使其适配输入图像的分辨率变化。
2025-04-01 17:39:18
607
原创 【视觉与语言模型参数解耦】为什么?方案?
一些无编码器的MLLMs统一架构如,直接在LLM内处理原始像素,消除了对外部视觉模型的依赖。但是面临视觉与语言模态冲突的挑战,导致训练不稳定和灾难性遗忘等问题。解决方案则是通过参数解耦方法解决模态冲突。,限制视觉与语言参数之间的直接耦合,从而缓解多模态学习中的固有冲突。
2025-04-01 17:11:54
965
原创 【大模型的可解释性】Tracing the thoughts of a large language model
AI 公司 Anthropic发表两篇论文(),还有一篇,对AI 的内部机制进行研究。从神经科学领域汲取灵感 —— 该学科长期致力于研究思维生物体内复杂的运作机制 —— 并尝试构建一种「」,用以识别模型活动模式和信息流动轨迹。第一篇论文延续了团队之前关于"模型可解释性"的工作(即在神经网络中发现可理解的概念/特征),新突破是将这些孤立的概念特征进行系统性连接,形成"计算回路"。通过这种连接揭示了语言模型的核心工作机制——展示输入文字(进入Claude模型)到输出文字(模型回应)之间的完整处理路径。
2025-03-31 18:00:40
717
原创 【理论型论文阅读】All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning
从第一性原理的角度来看,基础模型微调(FT)中最强的结果竟是通过相对复杂的两阶段训练程序实现的,这似乎有些反常。具体而言,首先在特定数据集(如人类偏好数据)上训练奖励模型(RM),随后将其作为下游强化学习(RL)流程的在线反馈机制,而非直接通过离线最大似然估计对策略参数进行数据集上的优化。事实上,从信息论的视角分析,通过奖励模型传递信息只会导致信息丢失,而无法通过在线策略采样创造任何新信息。(RM是对原始数据的“有损压缩”,无法完全保留所有信息。
2025-03-26 15:42:31
1060
1
原创 【综述】Vision + X: A Survey on Multimodal Learning in the Light of Data
我们以多感官的方式感知和与世界交流,不同的信息源由人类大脑的各个部分进行复杂的处理和解释,从而构成一个复杂却和谐统一的感知系统。为了使机器具备真正的智能,近年来随着技术进步的涌现,融合多源数据的多模态机器学习已成为一个日益流行的研究领域。在本文中,我们从一种新颖的视角对多模态机器学习进行了综述,不仅考虑了纯粹的技术方面,还考虑了不同数据模态的内在特性。我们分析了主要涵盖视觉、音频、文本和运动等数据格式的共性与独特性,并按照数据模态的组合(如视觉+文本)展示了方法论的进展,其中略微倾向于对视觉数据的强调。
2025-03-19 16:22:01
897
原创 【综述】An Introduction to Vision-Language Modeling【二】
该文章对视觉语言模型进行介绍,解释了什么是视觉语言模型,怎么训练的,如果基于各种研究目标来有效评估它。这项工作不是一个现有工作的综述,而是对视觉语言模型进行清晰易理解的介绍,以便更好入门。1、首先介绍了几种训练范式。对比学习、基于掩码策略、生成式、基于预训练骨干网络。2、然后提出了训练 VLM 的典型方法。例如:鉴于不同的研究目标,哪些数据集是合适的?哪种数据管理策略?是否需要训练文本编码器还是可以利用预训练的LLM?对比损失对于视觉理解是否足够?生成组件是否关键?
2025-03-14 22:08:02
957
1
原创 【综述】An Introduction to Vision-Language Modeling【一】
其中 𝑥𝑖 是从数据分布中采样的,而 𝑥𝑗∼𝑝𝑛(𝑥),𝑗≠𝑖 是从噪声分布中采样的:InfoNCE损失不是简单地预测一个二元值,而是利用如余弦相似度这样的距离度量,在模型的表示空间中进行计算。这就需要计算正样本对之间的距离,以及所有负样本对之间的距离。通过Softmax函数,模型学习预测在表示空间中最相近的一对样本,同时将较低的概率赋予其他所有的负样本对。
2025-03-14 20:33:40
988
原创 【代码】x-r1项目代码学习——XGRPOTrainer类 `_prepare_inputs`函数
📌 在大模型训练中的调用时机在 大模型(如 LLM, ChatGPT, RLHF 训练) 的训练过程中, 通常在强化学习阶段(RLHF / PPO 训练) 被调用,主要用于:该函数通常在 RLHF训练 过程中被调用,特别是在 每个 PPO 训练步(training step) 期间,用于处理数据,然后计算奖励和优势(advantage)。在 RLHF(使用 算法)训练大模型时,训练流程大致如下:✅ 关键点:在 RLHF 训练过程中,每次训练都会调用 ,并计算 、、 以优化 PPO 训练。
2025-03-12 21:12:33
281
原创 【综述论文阅读】A Survey on Multimodal Large Language Models下
来自1 中科大科技学院、认知智能国家重点实验室2 腾讯优图实验室的综述,建立了github项目,持续更新该综述首先对 MLLM 的核心方面进行全面回顾,包括 (1) 主流架构(第 2 节);(2) 训练策略和数据的完整配方(第 3 节);(3) 性能评估的常见实践(第 4 节)。然后探讨了一些关于 MLLM 的重要问题:(1)哪些方面可以进一步改进或扩展(第 5 节)?(2) 如何缓解多模态幻觉问题(第 6 节)?(3)
2025-03-06 09:18:03
1812
1
原创 【综述论文阅读】A Survey on Multimodal Large Language Models 上
综述又来啦,这篇综述24年的,来自1 中国科大科技学院、认知智能国家重点实验室2 腾讯优图实验室并建立了github项目指令(Instruction)是指任务的描述。直观来看,指令微调的目标是教会模型更好地理解用户的指令并完成所要求的任务。通过这种方式,LLM可以通过遵循新指令泛化到未见过的任务,从而提升零样本性能。
2025-03-04 16:55:08
888
1
原创 【综述论文阅读】Multimodal Machine Learning: A Survey and Taxonomy
2017年的一篇综述,对多模态任务构建了分类框架,以及每个任务下常用的方法。里面涉及的方法都比较旧。本文主要是对该文章进行翻译和重点内容标记,后续可能会总结重点。我们对世界的体验是多模态的——我们看到物体、听到声音、感受质地、闻到气味并品尝味道。模态指的是某事物发生或被体验的方式,当一个研究问题包含多种这样的模态时,它就被称为多模态问题。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够共同解释这些多模态信号。多模态机器学习旨在构建能够处理和关联来自多种模态信息的模型。
2025-02-26 22:02:51
888
1
原创 get_rope_index函数代码解读-Qwen2VLForConditionalGeneration
get_rope_index是来自transformer库的类提供的函数。该函数基于图像和视频的时间、高度和宽度计算其在LLM中的3D旋转位置编码(RoPE)索引。具体来说,它为视觉部分计算3D旋转位置编码,为文本部分计算1D旋转位置编码。这个函数在类的函数中被调用。self,
2025-01-16 14:59:15
1516
原创 LLaMAFactory项目学习
LLaMA Factory 是一个简单易用且高效的大模型训练与微调平台。通过 LLaMA Factory,可以在无需编写任何代码的前提下,在本地完成上百种预训练模型的微调,框架特性包括:模型种类:LLaMA、LLaVA、Mistral、Mixtral-MoE、Qwen、Yi、Gemma、Baichuan、ChatGLM、Phi 等等。训练算法:(增量)预训练、(多模态)指令监督微调、奖励模型训练、PPO 训练、DPO 训练、KTO 训练、ORPO 训练等等。
2025-01-14 11:21:02
414
翻译 多模态大模型课程-UCAS-WJQ
利用语言学、语音学、数字信号处理、计算机科学等领域的知识,对人发音生理过程进行模拟和抽象总结,对文本的发音进行多种角度的分析,经过一系列的处理,最终得到具有特定语音特征的人类可听懂的音频信号。Video-LLaVA 将图片和视频特征映射到统一的特征空间中,以便语言模型能够从统一的视觉表示中学习模态之间的交互,在图片和视频上的13 个基准上达到SOTA。设计算法模型对图像的生成过程进行模拟和抽象总结,经过一系列的处理,最终得到具有特定特征的图像。利用深度学习技术来验证数字内容(如图像、视频、音频)的真实性。
2025-01-09 22:02:32
55
原创 Llava论文阅读:Visual Instruction Tuning
以前的研究显示,通过使用机器生成的指令遵循数据来训练LLMs,可以提升模型在新的任务上的零样本学习能力。但在多模态领域,这个想法还没有被充分探索。研究人员首次尝试使用仅处理语言的GPT-4模型来生成多模态的语言图像指令遵循数据。同时引入了一个名为LLaVA的新模型在生成的数据上进行指令微调。这个模型是一个端到端训练的大型多模态模型,它将视觉编码器(用于理解图像)和大型语言模型(LLM)连接起来,用于 通用的视觉和语言理解。为了促进未来在视觉指令遵循方面的研究,研究人员构建了两个评估基准。
2025-01-07 10:00:46
1892
1
原创 CLIP论文阅读:Learning Transferable Visual Models From Natural Language Supervision
~~~~~目前一些图像分类模型在有图像标签的分类数据上训练后可以达到很好的效果,但是这需要额外的标签数据,这种受限的监督形式限制了模型的通用性和可用性。因此作者提出从原始文本中直接学习图像信息,这可以利用更广泛的监督来源。作者在一个从互联网收集的包含4亿图文对的数据集上训练,证明了预测哪个标题与哪张图片匹配的简单预训练任务是一种高效且可扩展的方法,能够学习到SOTA图像表示。~~~~~~预训练后,可以直接使用自然语言实现下游任务的零样本迁移。
2025-01-06 17:33:05
1909
1
原创 kosmos-1论文阅读:Language Is Not All You Need: Aligning Perception with Language Models
1、KOSMOS-1模型是个多模态语言模型,可以接收通用模态数据,同时仍具备指令遵循、上下文学习能力。2、给定上文,模型以自回归的方式学会生成文本。3、其核心是一个基于Transformer的因果语言模型(decode-only).4、文本、图像等模态的数据均被嵌入向量化后输入语言模型,模型作为多模态输入的通用接口。5、模型在多模态语料库上训练,包括单模态数据、跨模态配对数据和交错多模态数据。6、模型训练后可以在语言任务和多模态任务上直接评估零样本和少样本能力。
2025-01-06 15:09:25
654
1
原创 BLIP2论文阅读
大模型的端到端训练成本越来越高,视觉语言预训练模型的成本变得日益昂贵。本文提出了BLIP-2,一种通用且高效的预训练策略,通过冻结已有的预训练图像编码器和语言模型来增强视觉-语言预训练。引入一个轻量级的Querying Transformer模块进行模态对齐,分两个阶段对该模块进行预训练。第一阶段从冻结的图像编码器中学习视觉语言表示,第二阶段从冻结的语言模型中学习基于视觉的语言生成。BLIP-2的可训练参数数量显著少于现有方法,但在各种视觉-语言任务上仍达到了最先进的性能。
2025-01-03 19:52:17
630
1
原创 BLIP论文阅读
现有的视觉-语言预训练(VLP)模型只能处理理解型或生成型任务之一,此外性能的提升主要是通过扩大数据集规模,使用从网络上收集的噪声图像-文本对来实现的,这是一种次优的监督来源。作者提出BLIP这个新的VLP框架,它既能理解图像和文字的关系,也能根据图像生成文字描述。它通过改进字幕生成和过滤噪声数据,在多个任务中表现优异,比如图像搜索、图像描述生成和视觉问答。BLIP还能零样本迁移到视频-语言任务。
2025-01-02 22:12:59
818
1
空空如也
64位的电脑能装32位的python吗?
2021-11-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人