自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 【代码问题】【包安装】尽可能转移python环境的一种简单方式

你在一台服务器/本地上有一个用得很顺手的 Python 环境,出于某种原因,现在要你在另一台服务器/电脑上工作,你想把原先的环境迁移过去。你在网上搜了导出环境的做法,导出了一个 .yml 文件,然后用安装这个 .yml 文件的时候总是出错,在试了很多次之后,最终决定花时间重新安装环境 :(可能有些包你在安装的时候(比如 clip)并不能用 “pip/conda [包名]” 的方式安装,而是得直接 pip/conda 人家的 github 地址安装。首先导出你的包:(先进入你原来的环境)

2025-10-02 19:59:18 232

原创 【代码问题】【Git】上传到 Huggingface 时,时不时就要输入一次 token

这条命令会在你第一次 push 时,将你输入的用户名和密码(此处密码填 HF token)存到。

2025-07-27 21:44:55 191

原创 【代码问题】【包安装】MMCV

python 最好是3.10或者3.9,而且 torch 和 cuda 版本一定要对应。MMCV 对于版本要求非常严格。

2025-07-27 19:02:24 492

原创 【代码问题】【模型部署】部署千问时,ImportError: Cannot import available module of Qwen2_5_VLForConditionalGeneration

多半是环境的问题,最主要的是 python 版本要高。

2025-07-23 18:58:36 760

原创 【代码问题】【模型下载】从 HuggingFace 上下载模型

可以通过这个链接,镜像地下载模型。

2025-07-06 21:20:34 306

原创 【论文笔记】【强化微调】Pixel Reasoner:早期 tool call 的调用

即使模型通过微调学会了视觉操作,其在文本推理方面的熟练度远超像素空间,导致模型在训练中更倾向于回避视觉操作。相比之下,文本推理正确率高,反馈好,于是久而久之模型就开始。而为了让模型知道使用工具,论文利用为每条训练样本准备了一个 “视觉目标”,那种很小的视觉目标,不放大仔细看就看不清楚的那种。:现有 VLM 在执行预定义视觉操作方面零样本能力有限,必须通过精细的指令微调,建立起基本的操作能力,并保留模型的。的奖励,但是使用次数过多,工具使用率 PaPR 提升,每次使用工具的奖励就少了,直到衰减到 0。

2025-07-06 17:49:14 941 1

原创 【论文笔记】【强化微调】综述 - Think With Image

一篇将视觉强化微调的各种方法总结起来的综述被提出来了,这篇综述将对图像的思考分成了两种:Think About Image 和 Think With Image。前者仅仅是把图像静态输入给大模型,作为一次上下文;后者是动态输入图片,类似看 - 想 - 看的迭代式思考。近两年来,强化微调已经火得不像话了,相关论文每个月就有好几篇挂在 Arxiv 上,看都看不过来。

2025-07-04 20:43:24 958 1

原创 【论文笔记】【强化微调】Vision-R1:首个针对多模态 LLM 制定的强化微调方法,以 7B 比肩 70B

借助已有多模态大模型(MLLM)与纯文本推理模型 DeepSeek-R1,把图像中的视觉信息“桥接”到高质量的链式思考(CoT)文本中,并最终构建无需人工标注的多模态 CoT 数据集。首先将多模态数据(图像)输入到 LLM 中,生成思维链。:原始图像、问题,以及上一步得到的伪 CoT,再加上新的“提示语”——“请根据这段思考过程,把图像里对回答问题至关重要的所有细节,用连贯的文字完整描述出来”。(Description),它不仅复述了伪 CoT 中的要点,还尽可能覆盖了图中所有与解题相关的视觉线索。

2025-07-02 17:48:52 972 1

原创 【论文笔记】【视频异常检测】Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection

假设你有两个高斯分布,这两个分布观测同一个量。举个例子,你是一个数学家,你家里有两个温度计用来测室温。你知道这两只温度计都不太准,但都服从高斯分布。他们测出来的值分别是,方差分别是。所以你每次计算真正室温时,是通过某种方式,将这两个测量值结合起来看的。那么怎么结合呢?

2025-06-30 16:47:09 1255 1

原创 【论文笔记】【强化微调】TinyLLaVA-Video-R1:小参数模型也能视频推理

和输出答案 <answer>,并且每次输出只能有一对 <think>

2025-06-21 21:26:52 1143 1

原创 【论文笔记】【强化微调】T-GRPO:对视频数据进行强化微调

相比 GRPO,T-GRPO 的创新在于使大模型微调的时候,能关注时序信息。做法就是将视频数据复制一份,并将这一份的视频帧打乱,打乱视频帧的视频就没有时序信息了。在强化微调中,像 GRPO、DAPO 这样的方法都是对文本或者图片进行微调思考,所以这类微调方法不对时序信息做处理,因此无法很好的迁移到视频的强化微调中。于是,设置奖励,使得模型在分析视频内容时,要求对有时序信息的视频帧分析正确,对乱序的视频帧分析错误。这个公式的意思就是说,如果有时序信息的视频帧的分析效果比乱序的更好,那么奖励就是。

2025-06-21 17:46:00 499 1

原创 【论文笔记】【强化微调】模拟 O3 动态思考

而 O3 是在看图的过程中就对图进行思考,在思考过程中,会有 Tool_Call 的过程。之前的一篇自动驾驶的结合了 Tool Call 的论文,调用的工具不仅仅只有图像放大,还有目标检测等等。上图是论文的一个示例,展示他们是如何把 Tool Call 加入到思维链中,从而形成对图的动态思考的。那么此时的状态就定义为所有的文本的裁剪的图片。论文对于这个任务中的状态(强化学习的那个状态)设置为:文本和图像的交错排列。OpenAI 的 O3 大模型是能够对图片动态思考的,也就是边思考边看图。

2025-06-20 21:55:26 486 1

原创 【论文笔记】【强化微调】AgentThink:思维链推理 + 工具调用

接着使用千问7B作为 LLM,使用 SFT 对模型进行预热,也就是规范模型输出格式,并告诉模型其将要面临的具体任务(比如这个数据集都是自动驾驶的数据,那么模型在监督微调之后,后续的回复就会更倾向自动驾驶)论文的附录里面写了所有使用的 tool,而结果上这些 tool 是一个个的函数。事实上,GRPO 微调的论文现在一抓一大把,微调不是创新,微调的设置才是创新,确切来说(主要)是奖励函数的设计。最后在实际推理时,模型根据每步的“不确定”标记,实时决定是否调用工具,并将工具输出融入后续推理。

2025-06-19 21:06:37 1113 1

原创 【强化学习】【笔记】【ch.10】GRPO / DAPO - 目前最优强化微调算法

在 GRPO 推出后仅仅几个月的时间,清华大学就推出了 GRPO 的 2.0 版本,叫做 DAPO。

2025-06-18 17:16:31 1262

原创 【强化学习】【笔记】【ch.9】PPO / RLHF - 曾经微调大模型的 SOTA

和过去的 DQN 和 AC 类似,PPO 也是使用的两个神经网络,一个 Policy 网络,一个 Value 网络。Policy 网络接收当前状态作为输入,输出动作的概率分布,并采样得到一个 Action;Value 网络接收当前的状态和采样得到的 Action 作为输入,输出该 Action 的 Q 值,这个 Q 值用来衡量当前 Action 的好坏。

2025-06-17 16:22:00 777

原创 【强化学习】【笔记】【ch.8】TRPO - 数学的置信域用在强化学习

在过去的笔记中的强化学习算法,比如 DQN,SARSA,REINFORCE 等等,都面临超参数不好调整,训练时的波动大的问题。比如说,学习率这个参数调的太高容易在最优区间附近来回震荡,甚至直接无法收敛。本质上说,是因为在更新策略的时候,新策略相比旧策略迈的步子 “太大”。如果我们能让新策略在更新的时候,始终在旧策略的附近找局部最优,最终逼近全局最优,这样就能避免训练不稳定的问题了。而高等数学中的这一概念正好契合这一想法。于是就诞生了 TRPO 这一强化学习的方法。

2025-06-16 13:15:37 950

原创 【信息论】【笔记】信息熵为什么用 log?KL 散度是什么?

为什么信息量要用 log 函数表示?比如说事件发生的概率为,则信息量为:后续的决策树计算信息量、信息增益等等的公式都是基于这个信息量的计算法则。为什么要这样去定义呢?1948 年,Claude Shannon 在提出信息熵的论文中指出,信息量函数(即一个事件发生所携带的信息量,,且当时,如果仅仅只是满足非负性和单调性,那么很多基础函数都可以满足,比如反比例函数,但是要满足可加性,最简单的函数就只有 log 了。

2025-06-16 11:50:48 442

原创 【强化学习】【笔记】【ch.7】DQN / AC - 把神经网络作为函数逼近

回顾一下之前笔记(ch.4)提过的 Q-Learning 的概念,这是一种逐渐逼近 Q 值的 TD 算法。当前状态下 Return 的计算公式是:(1-step)这个方法是的背景,是假定当前状态有限,于是可以去更新一个 Q 值表。然而,在DQN算法的背景中,状态是无限的或者说不可数的。比如 DQN 就被用在雅达利的游戏中,输入是雅达利2600(一款很老的游戏机)的游戏画面,所以状态是无限的。在函数逼近那一节的笔记(ch.5)中提到过,对于无限的状态,Q 值表无法存储。

2025-06-15 22:27:30 1072

原创 【强化学习】【笔记】【ch.6】REINFORCE - 早期策略梯度方法

代表一系列强化学习方法,简称 PG。而这一系列方法才是我们当今时代要用到的那部分算法,比如PPO、GRPO等等。不过呢,这并不代表前面几节笔记就没用。事实上,需要前面几节笔记的知识,才能更好理解 PG。前面几节笔记中,提到的优化策略的算法是这个步骤:意思就是说,先用一个函数拟合 Q 值,然后基于选择最大 Q 值的算法,去更新目标策略。这是一种间接的优化方式。但是在 PG 里面,优化策略是这样优化的:没错,是直接优化。这个式子,意思是在当前的状态下,选择 a 这个行为的概率的函数。

2025-06-15 16:43:13 587

原创 【强化学习】【笔记】【ch.5】函数逼近

比如说爬悬崖问题,假设悬崖很大,一共1兆亿的格子数,内存不允许你罗列这么多的格子;,这可能会非常耗时。之前案例一的时候,粗糙地把状态分成 10 份,于是就只有 10 个状态空间,收敛出来的图像也是一节一节的和楼梯一样。如果我们拟合的结果和真实结果的误差很小,那么肯定就算优化的最小了:(VE 表示 V 值表的误差 Error)之前的笔记中,所有的状态都是已知的,能罗列出来的。于是,有人结合函数拟合的思想,不再去更新一张 Q 值表或者 V 值表,而是通过拟合函数逼近真正的 Q 值或 V 值。

2025-06-14 20:11:40 757

原创 【强化学习】【笔记】【ch.4】时序差分策略、SARSA、Q-Learning、期望SARSA

图中,上方的红色和绿色的 T 型,T 型的横线代表当前 return 值,竖线代表变化量。比如开局 Return 是 0 ,采样一次之后变到 -2,于是就从 0 开始,往 -2 的位置拉一根竖线,然后划一根横线表示当前 Return 是 -2;也就是说,每次更新 Q 值,需要目标策略,基于当前的 State,采取一个 Action,然后基于这个 Action 去更新目标策略。如下图,n=4 的意思是说我想在时间步 t 的时候更新 V 值,那么就采样 t+n 个数据,用这些数据去更新 V 值。

2025-06-12 20:37:02 1031

原创 【强化学习】【笔记】【ch.3】蒙特卡洛策略

之前在 21 点游戏的案例中,在面对手牌点数和是 21 点时,由于停牌动作的 Q 值更大,所以策略更容易选择停牌,导致叫牌动作采样少,使得其 Q 值更新慢。而异策略在采样的时候,由于始终是使用相同的策略采样,所以假设在 21 点游戏案例中使用异策略,则几乎所有的 state-action pair 都会有近乎等量的样本更新 Q 值。所以整整一千万次取 trajectory 的过程中,在手牌点数和为 21 点时,选择叫牌的 Q 值小,所以取样次数少,因此就没有更多的样本去更新这里的 Q 值。

2025-06-11 16:13:57 650

原创 【强化学习】【笔记】【ch.2】贝尔曼方程,广义策略迭代(GPI)

不过我们想一想,这个案例中,往左走比往右走的期望奖励多 0.4 ,那我们为什么不定死往左走(左走概率是 1,右走是 0)呢,这样一来,策略价值函数值就为 17.8。的期望值是 17.4,而当时的策略是往左走的概率是 0.4,往右走的概率是 0.6,于是计算得到当前策略下,策略价值函数值为 17.57。现在,小人行动的策略 policy 是这样的:向右走的概率是 0.6,向左走的概率是 0.4。这是一个广义迭代策略的算法,叫做值迭代算法,也是比较早期的方法了,是在策略迭代上改进的一个算法。

2025-06-09 19:56:48 814

原创 【论文笔记】【视频异常检测】【CVPR2025】Anomize: Better Open Vocabulary Video Anomaly Detection

这篇论文是第二篇开放词汇视频异常检测(OVVAD)的论文。其实第一篇OVVAD的论文做的方法很简单,但是之所以能投CVPR,是因为提出了OVVAD这个任务。这篇论文没有“第一个提出”这块招牌,也就是说它得在方法上下功夫,才能中CVPR。(就是说检测不到新类)和(就是说无法把新类异常归类),这两个挑战其实也就是OVVAD的两个核心挑战。而论文的创新是引入了“文本增强的双流机制”,我会在后面解释这个机制是什么。

2025-06-06 14:55:29 1329 1

原创 【强化学习】【笔记】【ch.1】任务定义

比如说:智能体可以指你训练的一个打飞机的模型,状态可以指当前屏幕上的代表你和敌人的飞机的位置,你所采取的行为可以是移动和射击,奖励可以是打中敌机加分以及死亡带来的扣分。开局随机获取一个状态(小球),随机执行一个 action (箭头),交给环境之后,基于分布,得到一个新的状态和奖励(0.13对应的中间的小球(状态)和 1(奖励))如上图所示,左边俩上下箭头代表所有可采取的 action,最上方三个的圆球代表环境所有可能的 state,而所有可能的 reward 是{1, 0, -1}

2025-06-05 16:28:03 764

原创 【论文笔记】【视频异常检测】【CVPR2024】Open-Vocabulary Video Anomaly Detection

为了让模型也具备“常识”去判断异常,论文首先用大语言模型(LLM)生成一系列与正常场景和异常场景相关的词汇(并非随便生成,而是基于提示词获取常见场景如“街道”、“公园”、异常场景如“爆炸”、“火光”),再用 CLIP 的文本编码器把它们转成与视觉特征同维度的向量。这部分很好懂,就是人为设计Prompt之后给到大模型,让大模型生成异常场景描述,然后基于这个描述让AIGC生成一堆视频帧,然后把这堆视频帧按照时间顺序拼接成视频片段之后,随机插入到原视频中,这样就获得了“未知异常”。这个模块是用来提取时序信息的。

2025-05-21 22:21:28 1111 1

原创 【论文笔记】【视频异常检测】【2021ACM】【部分】Learning Causal Temporal Relation and Fature Discrimination for Anomaly

和。时序上下文就是说忽视了(或者说没有完全利用)时序信息;特征判别性就是和用来解决时序上下文;和用来解决特征判别性。

2025-05-20 18:15:29 299 1

原创 【代码问题】【模型部署】GroundingSam,Hydra始终找不到路径?hydra.errors.MissingConfigException

以及之前的 from_pretrained 方法也要加一个默认参数你直接传入 config_name 和 ckpt_path 即可,这俩一个是 .yaml 路径,一个是 .pt 路径,比如这是我传入的方式。

2025-04-08 18:00:55 1505 2

原创 【代码问题】【模型部署】解决:cannot import name ‘AutoModel‘ from ‘modelscope‘

【代码】解决:cannot import name ‘AutoModel‘ from ‘modelscope‘

2025-03-16 17:38:15 581

原创 【代码问题】【模型部署】试着部署Grounding Sam的时候,遇到hydra.errors.InstantiationException: Error locating target

部署了很多次Grounding Sam,每次都在这一步卡了几十分钟之后才想起来要怎么解决。在保证路径全对的情况下,安装这个包即可。

2025-03-01 17:36:46 651

原创 【代码问题】【模型部署】如何跑通OpenSeeD做场景分割

这里你可以自定义输出路径,和输入图片路径。thing_classes=['car','person','trafficlight','truck','motorcycle']#可数的事物stuff_classes=['building','sky','street','tree','rock','sidewalk']#不可数的事物这里你可以自定义要分割的东西。

2025-01-17 16:51:56 789

原创 【服务器问题】bad interpreter: No such file or directory 问题解决

服务器一个盘空间不够了,管理员给移到了其他地方,这导致原本的 pip 这些命令用不了: 首先找到pip位置:(比如我的位置在这里:/data1/userhome/lm/anaconda3/envs/txy/bin/pip) 编辑pip: 打开之后大概率看到这样的东西: 修改第一行为你新的编译器位置:(我这里已经修改了)

2024-12-11 16:56:07 812

原创 【代码问题】【模型部署】部署通义千问Qwen模型时,遇到Flash-Attention2装不上的问题

3. 完成这些之后,应该就不需要安装Flash-Attention2了。我不去装什么Flash-Attention2,说是要编译好几个小时,然后我这边一直报错。直接从头开始说我的部署方式,

2024-10-30 18:58:44 1698

原创 【代码问题】【模型部署】在使用RAG时,用FlashrankRerank中的模型作为Ranker时,从HuggingFace无法下载的解决方法

如果愿意修改“default_cache_dir”这个参数,修改为下载到自己本地的模型路径,那么可以解决问题。结合“model_url”和“model_file_map”,从网上把模型下载到本地。或者也可以修改FlashrankRerank的源码部分:(以下是我修改的部分)首先,进入到FlashrankRerank的源码部分,找到这句代码。

2024-10-18 21:31:03 567 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除