
多模态
文章平均质量分 94
多模态领域相关经典论文精读
Donvink
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【多模态大模型实战】使用LoRA微调Qwen2.5-VL
本文将直接使用 Qwen2.5-VL-7B-Instruct 模型在 coco_2014_caption 数据集上进行LoRA微调训练,旨在熟悉Qwen2.5-VL数据处理和训练流程。GitHub地址:https://github.com/Donvink/Qwen2.5-VL-Finetune原创 2025-04-12 14:04:33 · 3220 阅读 · 4 评论 -
【CLIP系列】2:如何用多GPU训练大模型(数据/模型/流水线/张量并行、MoE、混合精度训练、压缩、激活重新计算)
近年来,随着更大规模的预训练语言模型的应用,我们在许多自然语言处理(NLP)基准任务上看到了更好的结果。然而,训练大型和深层神经网络是一个具有挑战性的任务,因为它需要大量的GPU内存和较长的训练时间。单个GPU工作节点的内存是有限的,而许多大型模型的规模已经超出了单个GPU的能力范围。为了在多个GPU之间进行模型训练,出现了几种并行化范式,以及各种模型架构和节省内存的设计,帮助实现对非常大的神经网络的训练。原创 2025-02-09 23:28:13 · 1222 阅读 · 0 评论 -
【多模态大模型】系列2:Transformer Encoder-Decoder——BLIP、CoCa、BEITv3
本文介绍基于Transformer Encoder-Decoder的BLIP、CoCa和BEITv3原创 2025-02-12 23:09:25 · 1151 阅读 · 0 评论 -
【多模态大模型】系列1:Transformer Encoder——ViLT、ALBEF、VLMO
近几年,尤其是 CLIP 出现以来,多模态学习的发展异常火爆。除了传统的视觉问答、图文检索、图像描述等,还有受启发于 CLIP 的新任务 Language Guided Detection/Segmentation、文本图像生成、文本视频生成等。原创 2025-02-12 22:52:23 · 742 阅读 · 0 评论 -
【CLIP系列】6:视频(CLIP4CLIP、Action CLIP)、语音(audio CLIP)及其他(CLIP-ViL、PointCLIP、DepthCLIP)
本文介绍将CLIP应用于视频、语音及其他领域的技术。原创 2025-02-11 22:53:19 · 1077 阅读 · 0 评论 -
【CLIP系列】5:CLIP图像生成——CLIPasso
CLIPasso获得了2022年的SIGGRAPH最佳论文奖,其论文题目Semantically-Aware Object Sketching,意思就是语义感知的物体素描。从下面包含有毕加索(Picasso)名画的这张图,可以看出CLIPasso就是CLIP和毕加索的缩写,这些都表明了这是一篇研究从图片生成简笔画的文章。原创 2025-02-11 22:29:14 · 1291 阅读 · 0 评论 -
【CLIP系列】4:目标检测(ViLD、GLIP)
本文主要介绍将CLIP应用于目标检测领域的两篇论文:ViLD和GLIP原创 2025-02-10 23:44:34 · 982 阅读 · 0 评论 -
【CLIP系列】3:语义分割(LSeg、GroupViT)
本文主要介绍将CLIP应用于语义分割的LSeg和GroupViT两篇论文原创 2025-02-10 23:02:38 · 1419 阅读 · 0 评论 -
【CLIP系列】1:CLIP【多模态领域开山之作】
CLIP的英文全称是Contrastive Language-Image Pre-training,即一种基于对比文本-图像对的预训练方法或者模型。CLIP是一种基于对比学习的多模态模型,与CV中的一些对比学习方法如moco和simclr不同的是,CLIP的训练数据是文本-图像对:一张图像和它对应的文本描述,这里希望通过对比学习,模型能够学习到文本-图像对的匹配关系。原创 2025-02-09 20:30:47 · 1162 阅读 · 0 评论