未来知行-优快云博客

原创多模态大模型 LLaVA1.5 LoRA微调笔记

最近翻阅了LLaVA1.5的论文《Improved Baselines with Visual Instruction Tuning》[1]，感叹多模态模型发展迅猛之余，也感觉非常的有意思，便想着自己尝试微调。论文作者贴心地在代码仓库提供了微调的脚本，但是由于微调过程会踩到很多坑（报错调了N个小时），因此记录下微调的笔记供需要的人参考。

2024-12-12 16:26:58 7140 14

原创 PyTorch安装与环境配置

通过本文，你应该能够成功安装并配置PyTorch开发环境。完成环境配置后，可以开始学习PyTorch的核心功能，如张量操作和模型搭建。如果你在安装或配置过程中遇到问题，欢迎在评论区留言，让我们共同进步！🎉。

2025-01-11 20:18:38 605

原创 CVPR-23 Towards Universal Fake Image Detectors that Generalize Across Generative Models 论文解读

随着生成模型的快速发展，人们对通用假图像检测器的需求日益增长。在这项工作中，我们首先展示了现有的模式，即训练一个深度网络来进行真假分类，但当训练它来检测 GAN 假图像时，却无法检测出新一代生成模型中的假图像。经过分析，我们发现由此产生的分类器在检测伪造图像的模式时是不对称的。真实类变成了一个 “下沉 ”类，其中包含了所有非伪造图像，包括在训练过程中无法访问的模型生成的图像。基于这一发现，我们建议在不学习的情况下进行真假分类，即使用未经明确训练的特征空间来区分真假图像。

2024-12-18 23:24:37 2334

原创多模态大模型LLaVA1.0 视觉指令微调

使用机器生成的指令跟随数据（instruction-following data）对大型语言模型（LLM）进行指令调整，已被证明可以提高新任务的 zero-shot 能力，但这一想法在多模态领域的探索较少。我们首次尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对这些生成的数据进行指令调整，我们介绍了 LLaVA：大型语言和视觉助手，这是一种端到端训练有素的大型多模态模型，它将视觉编码器和 LLM 连接起来，用于通用的视觉和语言理解。

2024-12-14 23:53:05 1304

原创 huggingface问题汇总（超时连接/本地下载/...）

由于大模型用的比较多，频繁地使用 Hugging Face 进行模型下载操作，其间遭遇了诸多问题。为了帮助大家避免类似的困扰，特在此对遇到的问题做些汇总整理。

2024-12-14 23:33:05 4325

原创 InternVL1.5解读 SoTA 多模态大模型

在本报告中，我们介绍了 InternVL 1.5，它是一种开源的多模态大语言模型（MLLM），可弥合开源模型与专有商业模型在多模态理解方面的能力差距。我们引入了三个简单的改进： (1) 强大的视觉编码器：我们探索了大规模视觉基础模型--InternViT-6B 的持续学习策略，增强了其视觉理解能力，并使其可以在不同的 LLMs 中转移和重用。(2) 动态高分辨率：根据输入图像的长宽比和分辨率，将图像划分为 1 到 40 块 448×448 像素的图块，最高支持 4K 分辨率输入。

2024-12-12 22:34:48 1344

Python课程作业-基于Pygame+Python音乐播放器

# 音乐播放器这是一个简单的音乐播放器，有GUI界面，使用 Python 和 Pygame 创建。它可以播放 MP3 格式的音乐文件，并支持分页显示歌曲列表以及播放/暂停功能。 ## 功能 - 播放/暂停音乐 - 翻页浏览音乐列表（每页显示 10 首歌曲） - 刷新音乐列表（当新 MP3 文件添加到 `music_files` 文件夹后，点击刷新按钮会自动更新歌曲列表） - 显示正在播放的歌曲 ## 使用方法 1. 将 MP3 文件放入 `music_files` 文件夹中。 2. 运行 `player.py`。 3. 使用界面上的按钮播放音乐、翻页或刷新歌曲列表。 ## 安装依赖确保你已经安装了 `pygame` 库。如果没有，可以使用以下命令安装： ```bash pip install pygame ``` ## 运行启动器 ```bash python player.py ```

2025-01-10

VScode-1.96.0 Windows x64安装包

* 下载时间：2024年12月 * 版本：1.96.0 * 平台：Windows x64 * 简介：Visual Studio Code（简称 VS Code）是一款由微软开发的免费、开源的代码编辑器。它支持多种编程语言的语法高亮、智能代码完成、括号匹配、代码缩进、代码片段、代码对比差异、Git 控制等功能。

2024-12-17

Kaggle 表情识别挑战赛：Fer2013数据集（已提取图像并按照标签分开存储）

# 简要介绍 Fer2013 数据集源自 Kaggle 表情识别挑战赛，该数据集包含7种不同的人脸情绪，所有图像均统一为 48×48 的像素尺寸。 # 数据规模 * 训练数据（Training）：28709 张灰度图像 * 验证数据（PublicTest）：3589 张灰度图 * 测试数据（PrivateTest）：3589 张灰度图 # 标签介绍数据集中的 7 种人脸情绪通过 0 - 6 的数字标签一一对应，具体如下： * 0=Angry * 1=Disgust * 2=Fear * 3=Happy * 4=Sad * 5=Surprise * 6=Neutral

2024-12-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 多模态大模型 LLaVA1.5 LoRA微调笔记