- 博客(6)
- 收藏
- 关注
原创 多模态大模型 LLaVA1.5 LoRA微调笔记
最近翻阅了LLaVA1.5的论文《Improved Baselines with Visual Instruction Tuning》[1],感叹多模态模型发展迅猛之余,也感觉非常的有意思,便想着自己尝试微调。论文作者贴心地在代码仓库提供了微调的脚本,但是由于微调过程会踩到很多坑(报错调了N个小时),因此记录下微调的笔记供需要的人参考。
2024-12-12 16:26:58
7140
14
原创 PyTorch安装与环境配置
通过本文,你应该能够成功安装并配置PyTorch开发环境。完成环境配置后,可以开始学习PyTorch的核心功能,如张量操作和模型搭建。如果你在安装或配置过程中遇到问题,欢迎在评论区留言,让我们共同进步!🎉。
2025-01-11 20:18:38
605
原创 CVPR-23 Towards Universal Fake Image Detectors that Generalize Across Generative Models 论文解读
随着生成模型的快速发展,人们对通用假图像检测器的需求日益增长。在这项工作中,我们首先展示了现有的模式,即训练一个深度网络来进行真假分类,但当训练它来检测 GAN 假图像时,却无法检测出新一代生成模型中的假图像。经过分析,我们发现由此产生的分类器在检测伪造图像的模式时是不对称的。真实类变成了一个 “下沉 ”类,其中包含了所有非伪造图像,包括在训练过程中无法访问的模型生成的图像。基于这一发现,我们建议在不学习的情况下进行真假分类,即使用未经明确训练的特征空间来区分真假图像。
2024-12-18 23:24:37
2334
原创 多模态大模型LLaVA1.0 视觉指令微调
使用机器生成的指令跟随数据(instruction-following data)对大型语言模型(LLM)进行指令调整,已被证明可以提高新任务的 zero-shot 能力,但这一想法在多模态领域的探索较少。我们首次尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对这些生成的数据进行指令调整,我们介绍了 LLaVA:大型语言和视觉助手,这是一种端到端训练有素的大型多模态模型,它将视觉编码器和 LLM 连接起来,用于通用的视觉和语言理解。
2024-12-14 23:53:05
1304
原创 huggingface问题汇总(超时连接/本地下载/...)
由于大模型用的比较多,频繁地使用 Hugging Face 进行模型下载操作,其间遭遇了诸多问题。为了帮助大家避免类似的困扰,特在此对遇到的问题做些汇总整理。
2024-12-14 23:33:05
4325
原创 InternVL1.5解读 SoTA 多模态大模型
在本报告中,我们介绍了 InternVL 1.5,它是一种开源的多模态大语言模型(MLLM),可弥合开源模型与专有商业模型在多模态理解方面的能力差距。我们引入了三个简单的改进: (1) 强大的视觉编码器:我们探索了大规模视觉基础模型--InternViT-6B 的持续学习策略,增强了其视觉理解能力,并使其可以在不同的 LLMs 中转移和重用。(2) 动态高分辨率:根据输入图像的长宽比和分辨率,将图像划分为 1 到 40 块 448×448 像素的图块,最高支持 4K 分辨率输入。
2024-12-12 22:34:48
1344
Python课程作业-基于Pygame+Python音乐播放器
2025-01-10
VScode-1.96.0 Windows x64安装包
2024-12-17
Kaggle 表情识别挑战赛:Fer2013数据集(已提取图像并按照标签分开存储)
2024-12-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅