《DeepSeek-VL: Towards Real-World Vision-Language Understanding》阅读解析

最新推荐文章于 2025-11-23 19:13:18 发布

原创

最新推荐文章于 2025-11-23 19:13:18 发布 · 1.1k 阅读

·

15

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #多模态 #大模型 #DeepSeek

DeepSeek-VL: Towards Real-World Vision-Language Understanding原文链接：

https://arxiv.org/pdf/2403.05525

主要贡献

高分辨率视觉编码：1024 x 1024分辨率

三阶段训练方式

模态热身策略

主要架构

主要架构分为三部分：

A hybrid vision encoder, a vision adaptor, and a language model.

hybrid vision encoder

采用SigLIP作为视觉编码器来提取视觉输入的高级特征表示。然而，一个单独的SigLIP编码器很难解决现实世界的问题，受模糊的编码影响，导致视觉上不同的图像被编码为相似，CLIP家族受其相对较低的分辨率输入的限制（例如224 x 224，336 x 336，384 x 384，512 x 512），这阻碍了他们处理任务的能力，该任务需要更详细的低级别功能，例如密集的OCR和视觉接地任务。

为了处理高分辨率的低级特征，利用SAM-B处理1024 x 1024的高分辨率图像输入，还保留了具有低分辨率384 x 384图像输入的Siglip-L视觉编码器，因此，混合视觉编码器结合了SAM-B和Siglip-L编码器，有效地编码了高分辨率1024 x 1024图像，同时保留语义和详细信息。

Vision-Language Adaptor

使用两层混合MLP来桥接视觉编码器和LLM，最初，不同的单层MLP用于分别处理高分辨率特征和低分辨率功能。随后，这些特征沿其尺寸连接，然后通过另一层MLP转换为LLM的输入空间。

Language Model

语言模型建立在DeepSeek LLM的基础之上，采用Pre-Norm结构（即在每一层的输入之前进行归一化操作，而不是在输出之后进行归一化（Post-Norm）。Pre-Norm 结构在近年来被广泛应用于Transformer模型及其变体中，因为它能够有效缓解梯度消失问题，并提升训练的稳定性），使用RMSNorm作为归一化函数，并且使用SwiGLU作为前馈网络的激活函数，采用旋转嵌入作为位置编码，使用与DeepSeek-LLM相同的to

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。