自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 【强化学习】DPO 微调大模型(数据流+伪代码)

DPO(直接偏好优化)是一种通过偏好成对数据微调大模型的高效方法。其核心流程包括:1)对同一提示生成偏好/非偏好回答并分别计算模型评分;2)通过对比目标使模型更倾向人类偏好回答。相比PPO等方法,DPO无需奖励模型和策略采样,具有实现简单、训练稳定等优势,但依赖静态偏好数据且缺乏在线探索能力。

2025-10-21 15:01:29 1136

原创 【强化学习】GRPO / GSPO 微调大模型(数据流+伪代码)

本文给出 GRPO 微调 LLM 的端到端流程:A 阶段对每个提示一次性采样 G 条回答,并对合并序列在当前/参考策略上做 teacher-forcing 得到逐 token 概率;B 阶段用序列级评分与逐 token KL 构造奖励,并以组均值作基线得到组相对优势,无需 value head/GAE;C 阶段采用与 PPO-Clip 同型的剪切代理目标,基于重要性采样与熵正则进行多轮小批更新。GRPO在保持稳定性的同时降低显存与实现复杂度。

2025-10-19 22:29:36 1896

原创 【强化学习】PPO 微调大模型(数据流+伪代码)

在大模型微调(RLHF/RLAIF)中,PPO的典型流程是:先训练奖励模型,再生成回答并评分,最后用剪切目标、价值回归和熵正则进行策略更新。实现时需注意teacher-forcing获取稳定概率、逐token奖励分配、GAE优势计算等关键步骤,以保证训练的稳定性和样本效率。

2025-10-15 14:11:17 2098

原创 【论文解读】CVPR 2025|Frequency Dynamic Convolution for Dense Image Prediction

本文围绕“动态卷积频率同质化、增参大”的根因做系统分析,并提出一套频域驱动的解决方案 FDConv:在固定参数预算下于傅里叶域学习并按互不重叠的频率索引分组生成多组权重(FDW),从源头确保并行核的频率多样性;再用核内逐元素调制(KSM)细化每个权重的响应;最后以频带×空间可变调制(FBM)让不同位置自适应选择低/中/高频,从而实现频率—空间双域的细粒度适配。该方法可即插即用地集成到 ConvNet 与视觉 Transformer 中,在检测、语义/实例分割等密集预测任务上以极小增参取得稳定增益。

2025-10-09 21:08:02 1789

原创 【论文解读】ICCV 2023|Dynamic Token Pruning in Plain Vision Transformers for Semantic Segmentation

作者提出 Dynamic Token Pruning(DToP):利用 ViT 语义分割网络中辅助头(auxiliary head)在中间层的预测来为每个 token 打“难易度”分,高置信的“容易 token”在中间层就“提前退出”,停止前向;同时为每个类别保留 top-k 个高置信 token作为上下文代表,避免语义信息丢失。最终把各阶段(stage)的早退预测与末端预测汇总成完整分割图,实现 20%–35% FLOPs 降低而精度基本不掉。

2025-09-26 22:08:44 718

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除