
VLM
文章平均质量分 78
alxe_made
个人对机器学习、深度学习比较感兴趣。
展开
-
VLM系列文章7-Molmo and PixMo
Molmo 是最先进的开放式多模态人工智能模型系列。在广泛的学术基准和人类评估中,我们最强大的模型缩小了开放系统与专利系统之间的差距。我们较小的模型性能优于其 10 倍大小的模型。原创 2024-09-27 11:21:51 · 1271 阅读 · 0 评论 -
VLM系列文章6-Cambrian-1
以视觉为中心的多模态大模型Cambrian-1,算是近期比较新的工作202406。原创 2024-07-30 17:04:52 · 499 阅读 · 0 评论 -
VLM系列文章5-Idefics2
本文继续探究构建VLM的关键组件是什么,从pre-trained models, architecture choice, data, and training methods 角度出发进行控制变量法实验;并提出了Idefics2系列模型,同时提出了一个新的SFT数据集。原创 2024-07-30 16:54:28 · 636 阅读 · 0 评论 -
VLM系列文章4-Prismatic VLMs
这篇文章基于 LLaVA 1.5 的框架,对于视觉大语言模型 (Vison Language Model) 的训练、架构等设计方案进行了消融实验。通过在一系列视觉语言的测试集上综合比较,作者得出了在这一框架下的最优的训练策略。其探索了以下几个维度。原创 2024-07-30 16:43:05 · 664 阅读 · 0 评论 -
VLM系列文章3-VILA(On Pre-training for Visual Language Models)
llava中ICL能力?是否需要交错文本进行训练?纯文本能力退化问题?原创 2024-07-30 16:32:24 · 808 阅读 · 0 评论 -
VLM系列文章2-LLaVA1.5
原始的llava仍旧存在一些问题,比如说如何处理高分辨率图像(如OCR任务可能需要较大的分辨率才能很好地解决),PT、SFT数据集选择什么样的?模型的scaling能力如何?本篇文章主要是原始llava的一个很好地扩展。原创 2024-07-30 16:05:43 · 857 阅读 · 0 评论 -
VLM系列文章1-LLaVA
VLLM经典工作。原创 2024-06-26 17:18:25 · 1150 阅读 · 0 评论 -
VLM系列文章导言
随着LLM技术的发展,VLM相关技术也发展较快。最近涌现的相关工作如LLAVA(1.5、1.6、Next)以及InterVL系列、MiniCPM系列。这些技术发展很快,有必要对相关的工作进行回顾总结。 比如PT、SFT以及RLHF相关技术,大模型的幻觉问题,模型量化、部署技术(AWQ、llm-deploy)等都是相关研究方向。原创 2024-05-30 11:29:33 · 259 阅读 · 0 评论