
多模态大模型
文章平均质量分 83
cv2016_DL
这个作者很懒,什么都没留下…
展开
-
一文看懂!视觉语言模型VLM
视觉语言模型(Visual-Language Models, VLMs)是一种融合视觉信息与语言信息的多模态人工智能模型。它旨在通过同时处理图像、视频等视觉数据以及文本、语音等语言数据,实现对复杂场景的深度理解和生成。这种模型的核心在于打破视觉与语言之间的模态壁垒,使机器能够像人类一样综合运用视觉和语言能力来完成各种任务。在人工智能的发展历程中,视觉和语言一直是两个相对独立的研究领域。计算机视觉专注于图像和视频的识别与理解,而自然语言处理则致力于文本和语音的处理与生成。原创 2025-04-07 14:03:34 · 918 阅读 · 0 评论 -
THUNLP_Multimodal_Excercise
该方法首先使用正负样本对训练一个打分模型(reward model),再利用打分模型给出的得分,对大模型的回复进行优化,优化目标是提升大模型回复在打分模型评判下的得分,同时不要与原始的模型参数相差太远。这样可以增强模型的表示能力,允许不同的头关注输入序列的不同部分。本次任务中,将提供一个不完整的多模态大模型结构及微调代码,请根据要求,补全过程中的关键步骤,并在提供的数据上实现简单的微调与推理。在偏好对齐训练阶段,通过收集一系列的正负样本对,对模型的输出进行双向的监督,从而更有效的控制模型的输出。原创 2025-04-03 18:45:14 · 782 阅读 · 0 评论 -
LLAVA复现!从0到1训练一个的多模态大模型(超越LLAVA 1.5)
本项目从0开始训练了一个MMMU分数超过llava-1.5的qllava模型,和llava相比差别在于LLM变成了qwen2。转载 2025-03-28 10:59:38 · 97 阅读 · 0 评论 -
全面系统梳理多模态LLM对齐算法
原创 2025-03-25 17:50:31 · 162 阅读 · 0 评论 -
多模态大模型常见问题
优点:Q-Former 通过查询机制有效融合了视觉和语言特征,使得模型能够更好地处理视觉-语言任务,尤其是在多模态推理任务中表现优秀。缺点:相较于 Q-Former,MLP 在处理复杂的视觉-语言融合任务时效果较差,尤其是在推理任务中。c.增强推理能力训练:进一步训练模型以增强其处理复杂推理任务(如图像中的逻辑推理)的能力。a.视觉-语言联合训练:使用大量的图像-文本对进行联合训练,以学习图像和文本之间的对齐。b.图像生成与理解训练:模型被训练以生成描述图像的文本,并理解不同的视觉任务。原创 2025-03-21 14:53:52 · 664 阅读 · 0 评论 -
【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)
本文记录了从0到1实现一个多模态大模型的过程,包括模型结构、数据引擎、评测全流程。当前模型训练数据与llava1.5-13b对齐,并且在MMMU评测上以更小的模型参数量超越了llava1.5-13b,当前训练数据因为只采用了图文多模态数据,在SFT阶段,并未加入text-only数据,因此,语言模型端会出现一些退化。将来若有时间,会考虑加入更多的多模态数据及笔者私有数据进行训练(如:《【多模态 & 文档智能】一次多模态大模型表格识别解析探索小实践记录》),打造更强的Reyes模型。原创 2025-03-17 14:56:43 · 830 阅读 · 0 评论 -
视觉语言模型VLM发展脉络
现代社会,双眼摄入的信息量大概可能是其他所有感官之和,而视觉信息最重要的两种载体——图片和文本是我们打开AGI的大门。当前LLM时代已经将人类的语言和思维掌握的很好,但是目前来看在图像感知、理解、生成方面仍有很大不足。原创 2025-03-12 10:29:53 · 1234 阅读 · 0 评论 -
多模态理解-Qwen-VL系列:Qwen-VL, Qwen2-VL, Qwen2.5-VL
Qwen-VL基于预训练好的Qwen-7B,支持等功能。原创 2025-03-10 16:29:01 · 1498 阅读 · 0 评论 -
siglip2推理教程
一定要按照下面的方法安装(或者从源码安装),否则会报错,试了其他几种方法都不行git clone https://github.com/huggingface/transformers.gitcd transformerspip install -e .安装完有下面提示即可:Successfully installed transformers-4.50.0.dev0 地址:https://huggingface.co/google/siglip2-base-patch16-224/tree/m原创 2025-03-07 11:31:38 · 535 阅读 · 1 评论 -
一文读懂多模态大模型:强化学习技术全面解读 SFT、RLHF、RLAIF、DPO
强化学习技术全面解读原创 2025-02-26 14:20:57 · 1010 阅读 · 0 评论 -
MiniCPM-O-2.6代码阅读详解
它的作用是存储之前计算过的 Key 和 Value 向量,避免在生成新 token 时重复计算历史 token 的 Key 和 Value,从而显著提高推理效率。其中self.resampler是一个 2D perceiver-resampler网络,主要目的是能够处理高维输入(如图像、音频等),通过将输入映射到低维的潜在空间来减少计算复杂度,并用于从输入中提取关键信息且重新采样到固定数量的查询(queries)。,主要功能是对输入图像进行预处理,将其转换为模型可接受的格式。用于缓存之前音频帧的。原创 2025-02-19 10:06:52 · 555 阅读 · 0 评论