多模态:ViT CLIP到Qwen-VL PaliGemma
文章平均质量分 95
多模态PaliGemma 2(含1代):Google推出的基于SigLIP和Gemma 2的视觉语言模型(附SigLIP详解)
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
一文通透Qwen VL系列:从Qwen-VL、Qwen2-VL(提出了M-RoPE且应用在了我司提问VLM系统中)到Qwen2.5-VL、Qwen3-VL
之所以关注到Qwen多模态大模型,是因为去年我司在实现提问VLM时(今年过年之前便已嵌入在七月在线官网教育层面的每一个视频中),当时面临两个模型的选择,一个是GPT4o,一个便是Qwen2-vl-72b最终因为后者的性价比更高,便选择了Qwen2-vl-72b。原创 2025-02-11 21:55:19 · 19481 阅读 · 4 评论 -
多模态PaliGemma 2(含1代):Google推出的基于SigLIP和Gemma 2的视觉语言模型
PaliGemma 是一个开放的视觉语言模型(VLM),基于 SigLIP--So400m 视觉编码器和 Gemma-2B 语言模型其结合了PaLI视觉语言模型和Gemma语言模型家族的特点。原创 2024-11-05 10:29:19 · 8976 阅读 · 0 评论 -
一文速览Eagle、Eagle 2、Eagle 2.5——英伟达开源的VLM:用于人形VLA GR00T N1和N1.5中
本文摘要: 《Eagle2视觉语言模型的技术解析》聚焦英伟达开源的Eagle2模型,探讨其作为先进视觉语言模型(VLM)的核心技术。文章从三大维度展开:1) 数据策略方面,Eagle2构建180+数据源池,采用"多样性优先"原则,通过数据收集、过滤、选择和增强四步优化;2) 训练方法上,创新性提出三阶段训练策略,并设计平衡感知的贪心背包算法提升训练效率;3) 模型架构层面,采用SigLIP+ConvNeXt混合视觉编码器和分块处理技术,支持高分辨率输入。实验表明,该9B参数模型性能媲美7原创 2025-10-06 13:52:04 · 4734 阅读 · 3 评论 -
一文通透多模态LLaVA系列——Visual Instruction Tuning:组合CLIP ViT和Vicuna
之所以写本文,源于三个方面一方面,我司「七月在线」准备在一个人形项目中,试下英伟达通用人形VLA GR00T N1,而GR00T N1中所用的VLM是他们自家于25年1月发布的Eagle 2原创 2025-05-05 13:02:24 · 4616 阅读 · 0 评论 -
图文对比学习的发展史:从CLIP、BLIP、BLIP2、InstructBLIP到具身模型常用的SigLIP
本文介绍了AI图像生成领域的重要发展历程,从CLIP、BLIP到InstructBLIP等模型。CLIP通过对比学习实现文本-图像对齐,BLIP结合编码器-解码器统一理解和生成任务,BLIP2引入Q-Former桥接视觉和语言模型,InstructBLIP则对Q-Former进行指令微调增强任务适应性。这些模型采用预训练-微调范式,通过大规模数据训练实现强大的跨模态能力,推动了AI绘画技术的发展。原创 2025-08-22 23:13:18 · 4271 阅读 · 0 评论 -
一文通透ViT:把图片划分成一个个patch块后再做注意力计算,打破CNN在CV领域的统治地位(含Swin Transformer的详解)
本文介绍了视觉Transformer(ViT)和Swin Transformer的发展历程及其在计算机视觉领域的应用。ViT通过将图像分割为16x16的块并作为Transformer输入,成功挑战了CNN在视觉领域的统治地位。文章详细解析了ViT的架构(Embedding层+Transformer Encoder+MLP Head)和与CNN的差异。随后介绍了Swin Transformer,它通过窗口设计和多尺度特征提取,解决了ViT在检测和分割任务中的局限性。Swin Transformer采用移动窗口原创 2025-08-22 22:37:43 · 4171 阅读 · 4 评论
分享