自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

未来知行的博客

走走看看,都是知识。AI安全领域小菜鸡,博客主要关注网络安全/大模型/AI安全。

  • 博客(6)
  • 收藏
  • 关注

原创 多模态大模型 LLaVA1.5 LoRA微调笔记

最近翻阅了LLaVA1.5的论文《Improved Baselines with Visual Instruction Tuning》[1],感叹多模态模型发展迅猛之余,也感觉非常的有意思,便想着自己尝试微调。论文作者贴心地在代码仓库提供了微调的脚本,但是由于微调过程会踩到很多坑(报错调了N个小时),因此记录下微调的笔记供需要的人参考。

2024-12-12 16:26:58 7140 14

原创 PyTorch安装与环境配置

通过本文,你应该能够成功安装并配置PyTorch开发环境。完成环境配置后,可以开始学习PyTorch的核心功能,如张量操作和模型搭建。如果你在安装或配置过程中遇到问题,欢迎在评论区留言,让我们共同进步!🎉。

2025-01-11 20:18:38 605

原创 CVPR-23 Towards Universal Fake Image Detectors that Generalize Across Generative Models 论文解读

随着生成模型的快速发展,人们对通用假图像检测器的需求日益增长。在这项工作中,我们首先展示了现有的模式,即训练一个深度网络来进行真假分类,但当训练它来检测 GAN 假图像时,却无法检测出新一代生成模型中的假图像。经过分析,我们发现由此产生的分类器在检测伪造图像的模式时是不对称的。真实类变成了一个 “下沉 ”类,其中包含了所有非伪造图像,包括在训练过程中无法访问的模型生成的图像。基于这一发现,我们建议在不学习的情况下进行真假分类,即使用未经明确训练的特征空间来区分真假图像。

2024-12-18 23:24:37 2334

原创 多模态大模型LLaVA1.0 视觉指令微调

使用机器生成的指令跟随数据(instruction-following data)对大型语言模型(LLM)进行指令调整,已被证明可以提高新任务的 zero-shot 能力,但这一想法在多模态领域的探索较少。我们首次尝试使用纯语言 GPT-4 生成多模态语言图像指令跟踪数据。通过对这些生成的数据进行指令调整,我们介绍了 LLaVA:大型语言和视觉助手,这是一种端到端训练有素的大型多模态模型,它将视觉编码器和 LLM 连接起来,用于通用的视觉和语言理解。

2024-12-14 23:53:05 1304

原创 huggingface问题汇总(超时连接/本地下载/...)

由于大模型用的比较多,频繁地使用 Hugging Face 进行模型下载操作,其间遭遇了诸多问题。为了帮助大家避免类似的困扰,特在此对遇到的问题做些汇总整理。

2024-12-14 23:33:05 4325

原创 InternVL1.5解读 SoTA 多模态大模型

在本报告中,我们介绍了 InternVL 1.5,它是一种开源的多模态大语言模型(MLLM),可弥合开源模型与专有商业模型在多模态理解方面的能力差距。我们引入了三个简单的改进: (1) 强大的视觉编码器:我们探索了大规模视觉基础模型--InternViT-6B 的持续学习策略,增强了其视觉理解能力,并使其可以在不同的 LLMs 中转移和重用。(2) 动态高分辨率:根据输入图像的长宽比和分辨率,将图像划分为 1 到 40 块 448×448 像素的图块,最高支持 4K 分辨率输入。

2024-12-12 22:34:48 1344

Python课程作业-基于Pygame+Python音乐播放器

# 音乐播放器 这是一个简单的音乐播放器,有GUI界面,使用 Python 和 Pygame 创建。它可以播放 MP3 格式的音乐文件,并支持分页显示歌曲列表以及播放/暂停功能。 ## 功能 - 播放/暂停音乐 - 翻页浏览音乐列表(每页显示 10 首歌曲) - 刷新音乐列表(当新 MP3 文件添加到 `music_files` 文件夹后,点击刷新按钮会自动更新歌曲列表) - 显示正在播放的歌曲 ## 使用方法 1. 将 MP3 文件放入 `music_files` 文件夹中。 2. 运行 `player.py`。 3. 使用界面上的按钮播放音乐、翻页或刷新歌曲列表。 ## 安装依赖 确保你已经安装了 `pygame` 库。如果没有,可以使用以下命令安装: ```bash pip install pygame ``` ## 运行启动器 ```bash python player.py ```

2025-01-10

VScode-1.96.0 Windows x64安装包

* 下载时间:2024年12月 * 版本:1.96.0 * 平台:Windows x64 * 简介:Visual Studio Code(简称 VS Code)是一款由微软开发的免费、开源的代码编辑器。它支持多种编程语言的语法高亮、智能代码完成、括号匹配、代码缩进、代码片段、代码对比差异、Git 控制等功能。

2024-12-17

Kaggle 表情识别挑战赛:Fer2013数据集(已提取图像并按照标签分开存储)

# 简要介绍 Fer2013 数据集源自 Kaggle 表情识别挑战赛,该数据集包含7种不同的人脸情绪,所有图像均统一为 48×48 的像素尺寸。 # 数据规模 * 训练数据(Training):28709 张灰度图像 * 验证数据(PublicTest):3589 张灰度图 * 测试数据(PrivateTest):3589 张灰度图 # 标签介绍 数据集中的 7 种人脸情绪通过 0 - 6 的数字标签一一对应,具体如下: * 0=Angry * 1=Disgust * 2=Fear * 3=Happy * 4=Sad * 5=Surprise * 6=Neutral

2024-12-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除