Catching Star-优快云博客

原创【代码问题】【包安装】尽可能转移python环境的一种简单方式

你在一台服务器/本地上有一个用得很顺手的 Python 环境，出于某种原因，现在要你在另一台服务器/电脑上工作，你想把原先的环境迁移过去。你在网上搜了导出环境的做法，导出了一个 .yml 文件，然后用安装这个 .yml 文件的时候总是出错，在试了很多次之后，最终决定花时间重新安装环境 :(可能有些包你在安装的时候（比如 clip）并不能用 “pip/conda [包名]” 的方式安装，而是得直接 pip/conda 人家的 github 地址安装。首先导出你的包：（先进入你原来的环境）

2025-10-02 19:59:18 232

原创【代码问题】【Git】上传到 Huggingface 时，时不时就要输入一次 token

这条命令会在你第一次 push 时，将你输入的用户名和密码（此处密码填 HF token）存到。

2025-07-27 21:44:55 191

原创【代码问题】【包安装】MMCV

python 最好是3.10或者3.9，而且 torch 和 cuda 版本一定要对应。MMCV 对于版本要求非常严格。

2025-07-27 19:02:24 492

原创【代码问题】【模型部署】部署千问时，ImportError: Cannot import available module of Qwen2_5_VLForConditionalGeneration

多半是环境的问题，最主要的是 python 版本要高。

2025-07-23 18:58:36 760

原创【代码问题】【模型下载】从 HuggingFace 上下载模型

可以通过这个链接，镜像地下载模型。

2025-07-06 21:20:34 306

原创【论文笔记】【强化微调】Pixel Reasoner：早期 tool call 的调用

即使模型通过微调学会了视觉操作，其在文本推理方面的熟练度远超像素空间，导致模型在训练中更倾向于回避视觉操作。相比之下，文本推理正确率高，反馈好，于是久而久之模型就开始。而为了让模型知道使用工具，论文利用为每条训练样本准备了一个 “视觉目标”，那种很小的视觉目标，不放大仔细看就看不清楚的那种。：现有 VLM 在执行预定义视觉操作方面零样本能力有限，必须通过精细的指令微调，建立起基本的操作能力，并保留模型的。的奖励，但是使用次数过多，工具使用率 PaPR 提升，每次使用工具的奖励就少了，直到衰减到 0。

2025-07-06 17:49:14 941 1

原创【论文笔记】【强化微调】综述 - Think With Image

一篇将视觉强化微调的各种方法总结起来的综述被提出来了，这篇综述将对图像的思考分成了两种：Think About Image 和 Think With Image。前者仅仅是把图像静态输入给大模型，作为一次上下文；后者是动态输入图片，类似看 - 想 - 看的迭代式思考。近两年来，强化微调已经火得不像话了，相关论文每个月就有好几篇挂在 Arxiv 上，看都看不过来。

2025-07-04 20:43:24 958 1

原创【论文笔记】【强化微调】Vision-R1：首个针对多模态 LLM 制定的强化微调方法，以 7B 比肩 70B

借助已有多模态大模型（MLLM）与纯文本推理模型 DeepSeek-R1，把图像中的视觉信息“桥接”到高质量的链式思考（CoT）文本中，并最终构建无需人工标注的多模态 CoT 数据集。首先将多模态数据（图像）输入到 LLM 中，生成思维链。：原始图像、问题，以及上一步得到的伪 CoT，再加上新的“提示语”——“请根据这段思考过程，把图像里对回答问题至关重要的所有细节，用连贯的文字完整描述出来”。（Description），它不仅复述了伪 CoT 中的要点，还尽可能覆盖了图中所有与解题相关的视觉线索。

2025-07-02 17:48:52 972 1

原创【论文笔记】【视频异常检测】Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection

假设你有两个高斯分布，这两个分布观测同一个量。举个例子，你是一个数学家，你家里有两个温度计用来测室温。你知道这两只温度计都不太准，但都服从高斯分布。他们测出来的值分别是，方差分别是。所以你每次计算真正室温时，是通过某种方式，将这两个测量值结合起来看的。那么怎么结合呢？

2025-06-30 16:47:09 1255 1

原创【论文笔记】【强化微调】TinyLLaVA-Video-R1：小参数模型也能视频推理

和输出答案 <answer>，并且每次输出只能有一对 <think>

2025-06-21 21:26:52 1143 1

原创【论文笔记】【强化微调】T-GRPO：对视频数据进行强化微调

相比 GRPO，T-GRPO 的创新在于使大模型微调的时候，能关注时序信息。做法就是将视频数据复制一份，并将这一份的视频帧打乱，打乱视频帧的视频就没有时序信息了。在强化微调中，像 GRPO、DAPO 这样的方法都是对文本或者图片进行微调思考，所以这类微调方法不对时序信息做处理，因此无法很好的迁移到视频的强化微调中。于是，设置奖励，使得模型在分析视频内容时，要求对有时序信息的视频帧分析正确，对乱序的视频帧分析错误。这个公式的意思就是说，如果有时序信息的视频帧的分析效果比乱序的更好，那么奖励就是。

2025-06-21 17:46:00 499 1

原创【论文笔记】【强化微调】模拟 O3 动态思考

而 O3 是在看图的过程中就对图进行思考，在思考过程中，会有 Tool_Call 的过程。之前的一篇自动驾驶的结合了 Tool Call 的论文，调用的工具不仅仅只有图像放大，还有目标检测等等。上图是论文的一个示例，展示他们是如何把 Tool Call 加入到思维链中，从而形成对图的动态思考的。那么此时的状态就定义为所有的文本的裁剪的图片。论文对于这个任务中的状态（强化学习的那个状态）设置为：文本和图像的交错排列。OpenAI 的 O3 大模型是能够对图片动态思考的，也就是边思考边看图。

2025-06-20 21:55:26 486 1

原创【论文笔记】【强化微调】AgentThink：思维链推理 + 工具调用

接着使用千问7B作为 LLM，使用 SFT 对模型进行预热，也就是规范模型输出格式，并告诉模型其将要面临的具体任务（比如这个数据集都是自动驾驶的数据，那么模型在监督微调之后，后续的回复就会更倾向自动驾驶）论文的附录里面写了所有使用的 tool，而结果上这些 tool 是一个个的函数。事实上，GRPO 微调的论文现在一抓一大把，微调不是创新，微调的设置才是创新，确切来说（主要）是奖励函数的设计。最后在实际推理时，模型根据每步的“不确定”标记，实时决定是否调用工具，并将工具输出融入后续推理。

2025-06-19 21:06:37 1113 1

原创【强化学习】【笔记】【ch.10】GRPO / DAPO - 目前最优强化微调算法

在 GRPO 推出后仅仅几个月的时间，清华大学就推出了 GRPO 的 2.0 版本，叫做 DAPO。

2025-06-18 17:16:31 1262

原创【强化学习】【笔记】【ch.9】PPO / RLHF - 曾经微调大模型的 SOTA

和过去的 DQN 和 AC 类似，PPO 也是使用的两个神经网络，一个 Policy 网络，一个 Value 网络。Policy 网络接收当前状态作为输入，输出动作的概率分布，并采样得到一个 Action；Value 网络接收当前的状态和采样得到的 Action 作为输入，输出该 Action 的 Q 值，这个 Q 值用来衡量当前 Action 的好坏。

2025-06-17 16:22:00 777

原创【强化学习】【笔记】【ch.8】TRPO - 数学的置信域用在强化学习

在过去的笔记中的强化学习算法，比如 DQN，SARSA，REINFORCE 等等，都面临超参数不好调整，训练时的波动大的问题。比如说，学习率这个参数调的太高容易在最优区间附近来回震荡，甚至直接无法收敛。本质上说，是因为在更新策略的时候，新策略相比旧策略迈的步子 “太大”。如果我们能让新策略在更新的时候，始终在旧策略的附近找局部最优，最终逼近全局最优，这样就能避免训练不稳定的问题了。而高等数学中的这一概念正好契合这一想法。于是就诞生了 TRPO 这一强化学习的方法。

2025-06-16 13:15:37 950

原创【信息论】【笔记】信息熵为什么用 log？KL 散度是什么？

为什么信息量要用 log 函数表示？比如说事件发生的概率为，则信息量为：后续的决策树计算信息量、信息增益等等的公式都是基于这个信息量的计算法则。为什么要这样去定义呢？1948 年，Claude Shannon 在提出信息熵的论文中指出，信息量函数（即一个事件发生所携带的信息量，，且当时，如果仅仅只是满足非负性和单调性，那么很多基础函数都可以满足，比如反比例函数，但是要满足可加性，最简单的函数就只有 log 了。

2025-06-16 11:50:48 442

原创【强化学习】【笔记】【ch.7】DQN / AC - 把神经网络作为函数逼近

回顾一下之前笔记（ch.4）提过的 Q-Learning 的概念，这是一种逐渐逼近 Q 值的 TD 算法。当前状态下 Return 的计算公式是：（1-step）这个方法是的背景，是假定当前状态有限，于是可以去更新一个 Q 值表。然而，在DQN算法的背景中，状态是无限的或者说不可数的。比如 DQN 就被用在雅达利的游戏中，输入是雅达利2600（一款很老的游戏机）的游戏画面，所以状态是无限的。在函数逼近那一节的笔记（ch.5）中提到过，对于无限的状态，Q 值表无法存储。

2025-06-15 22:27:30 1072

原创【强化学习】【笔记】【ch.6】REINFORCE - 早期策略梯度方法

代表一系列强化学习方法，简称 PG。而这一系列方法才是我们当今时代要用到的那部分算法，比如PPO、GRPO等等。不过呢，这并不代表前面几节笔记就没用。事实上，需要前面几节笔记的知识，才能更好理解 PG。前面几节笔记中，提到的优化策略的算法是这个步骤：意思就是说，先用一个函数拟合 Q 值，然后基于选择最大 Q 值的算法，去更新目标策略。这是一种间接的优化方式。但是在 PG 里面，优化策略是这样优化的：没错，是直接优化。这个式子，意思是在当前的状态下，选择 a 这个行为的概率的函数。

2025-06-15 16:43:13 587

原创【强化学习】【笔记】【ch.5】函数逼近

比如说爬悬崖问题，假设悬崖很大，一共1兆亿的格子数，内存不允许你罗列这么多的格子；，这可能会非常耗时。之前案例一的时候，粗糙地把状态分成 10 份，于是就只有 10 个状态空间，收敛出来的图像也是一节一节的和楼梯一样。如果我们拟合的结果和真实结果的误差很小，那么肯定就算优化的最小了：（VE 表示 V 值表的误差 Error）之前的笔记中，所有的状态都是已知的，能罗列出来的。于是，有人结合函数拟合的思想，不再去更新一张 Q 值表或者 V 值表，而是通过拟合函数逼近真正的 Q 值或 V 值。

2025-06-14 20:11:40 757

原创【强化学习】【笔记】【ch.4】时序差分策略、SARSA、Q-Learning、期望SARSA

图中，上方的红色和绿色的 T 型，T 型的横线代表当前 return 值，竖线代表变化量。比如开局 Return 是 0 ，采样一次之后变到 -2，于是就从 0 开始，往 -2 的位置拉一根竖线，然后划一根横线表示当前 Return 是 -2；也就是说，每次更新 Q 值，需要目标策略，基于当前的 State，采取一个 Action，然后基于这个 Action 去更新目标策略。如下图，n=4 的意思是说我想在时间步 t 的时候更新 V 值，那么就采样 t+n 个数据，用这些数据去更新 V 值。

2025-06-12 20:37:02 1031

原创【强化学习】【笔记】【ch.3】蒙特卡洛策略

之前在 21 点游戏的案例中，在面对手牌点数和是 21 点时，由于停牌动作的 Q 值更大，所以策略更容易选择停牌，导致叫牌动作采样少，使得其 Q 值更新慢。而异策略在采样的时候，由于始终是使用相同的策略采样，所以假设在 21 点游戏案例中使用异策略，则几乎所有的 state-action pair 都会有近乎等量的样本更新 Q 值。所以整整一千万次取 trajectory 的过程中，在手牌点数和为 21 点时，选择叫牌的 Q 值小，所以取样次数少，因此就没有更多的样本去更新这里的 Q 值。

2025-06-11 16:13:57 650

原创【强化学习】【笔记】【ch.2】贝尔曼方程，广义策略迭代（GPI）

不过我们想一想，这个案例中，往左走比往右走的期望奖励多 0.4 ，那我们为什么不定死往左走（左走概率是 1，右走是 0）呢，这样一来，策略价值函数值就为 17.8。的期望值是 17.4，而当时的策略是往左走的概率是 0.4，往右走的概率是 0.6，于是计算得到当前策略下，策略价值函数值为 17.57。现在，小人行动的策略 policy 是这样的：向右走的概率是 0.6，向左走的概率是 0.4。这是一个广义迭代策略的算法，叫做值迭代算法，也是比较早期的方法了，是在策略迭代上改进的一个算法。

2025-06-09 19:56:48 814

原创【论文笔记】【视频异常检测】【CVPR2025】Anomize: Better Open Vocabulary Video Anomaly Detection

这篇论文是第二篇开放词汇视频异常检测（OVVAD）的论文。其实第一篇OVVAD的论文做的方法很简单，但是之所以能投CVPR，是因为提出了OVVAD这个任务。这篇论文没有“第一个提出”这块招牌，也就是说它得在方法上下功夫，才能中CVPR。（就是说检测不到新类）和（就是说无法把新类异常归类），这两个挑战其实也就是OVVAD的两个核心挑战。而论文的创新是引入了“文本增强的双流机制”，我会在后面解释这个机制是什么。

2025-06-06 14:55:29 1329 1

原创【强化学习】【笔记】【ch.1】任务定义

比如说：智能体可以指你训练的一个打飞机的模型，状态可以指当前屏幕上的代表你和敌人的飞机的位置，你所采取的行为可以是移动和射击，奖励可以是打中敌机加分以及死亡带来的扣分。开局随机获取一个状态（小球），随机执行一个 action （箭头），交给环境之后，基于分布，得到一个新的状态和奖励（0.13对应的中间的小球（状态）和 1（奖励））如上图所示，左边俩上下箭头代表所有可采取的 action，最上方三个的圆球代表环境所有可能的 state，而所有可能的 reward 是{1, 0, -1}

2025-06-05 16:28:03 764

原创【论文笔记】【视频异常检测】【CVPR2024】Open-Vocabulary Video Anomaly Detection

为了让模型也具备“常识”去判断异常，论文首先用大语言模型（LLM）生成一系列与正常场景和异常场景相关的词汇（并非随便生成，而是基于提示词获取常见场景如“街道”、“公园”、异常场景如“爆炸”、“火光”），再用 CLIP 的文本编码器把它们转成与视觉特征同维度的向量。这部分很好懂，就是人为设计Prompt之后给到大模型，让大模型生成异常场景描述，然后基于这个描述让AIGC生成一堆视频帧，然后把这堆视频帧按照时间顺序拼接成视频片段之后，随机插入到原视频中，这样就获得了“未知异常”。这个模块是用来提取时序信息的。

2025-05-21 22:21:28 1111 1

m0_72372080的博客