- 博客(57)
- 收藏
- 关注
原创 【腾讯元器】学术炼金废弃回收站
《基于腾讯元器的学术智能体搭建实践》摘要:本文介绍了如何利用腾讯元器平台零代码构建"学术炼金废弃回收站"智能体,面向科研人员提供情绪支持与学术建议。作者详细演示了从创建对话式智能体、编写提示词(包含黑话共情、建设性乐观等风格设定),到配置E-S-A响应模式(情绪接纳-策略重构-行动建议)的全过程。该智能体支持知识库对接实现RAG功能,可帮助研究者缓解焦虑、突破学术困境
2025-12-15 13:41:35
2240
48
原创 【大模型微调】QLoRA微调原理及实战
摘要 本文深入解析了QLoRA和DoRA两种高效微调技术的原理与应用。QLoRA通过4bit量化基座模型(采用NF4非均匀量化)配合全精度LoRA适配器,显著降低显存需求;DoRA则将权重分解为方向与幅度进行独立优化。文章详细对比了对称/非对称量化的区别,剖析了QLoRA的双重量化(Double Quantization)机制——先对权重分块量化,再对量化参数二次压缩。最后给出了HuggingFace生态下的工程配置示例,包括bitsandbytes量化配置和peft的LoRA注入方法。
2025-12-10 16:43:12
2435
31
原创 【大模型后训练专题】LoRA原理及实现
摘要 本文深入解析LoRA(Low-Rank Adaptation)技术原理及工程实现。LoRA通过冻结预训练模型参数,仅训练低秩增量矩阵ΔW=BA(B∈ℝ^{d×r}, A∈ℝ^{r×d}),显著降低微调参数量。核心观点包括: 低秩合理性:预训练模型已具备通用能力,下游任务只需低维调整; 超参数设置:rank(r)控制子空间维度,alpha实现方差归一化,建议r=4/8/16,alpha=r~2r; 工程实践:优先在Attention的Q/K/V/O投影层添加LoRA,Q/V层性价比最高;LoRA Dro
2025-11-27 17:34:21
2150
49
原创 【大模型学习】现代大模型架构(二):旋转位置编码和SwiGLU
摘要:本文介绍了大模型中的两种关键位置编码技术——三角函数绝对位置编码和旋转相对位置编码(RoPE)。三角函数编码通过固定正弦/余弦函数为每个位置生成向量,实现简单但难以外推超长序列。RoPE则直接在Q/K空间进行旋转操作,使注意力结果仅与相对位置差相关,更适应长上下文建模。目前主流采用RoPE,因其能更自然建模相对位置关系,且具备更好的外推性。文章还提供了两种编码的PyTorch实现代码,并解释了RoPE如何通过旋转矩阵实现相对位置感知。
2025-11-25 08:52:19
1006
24
原创 【多模态大模型面经】现代大模型架构(一): 组注意力机制(GQA)和 RMSNorm
✍ 在大模型论文学习中,相信很多读者和笔者一样,一开始都会有一种感觉:“现在大模型架构都差不多,主要是数据和算力在堆积。”当笔者慢慢总结LLaMA、Qwen、DeepSeek这些模型架构的时候发现,在 Attention、位置编码、FFN 与归一化 上,其实已经悄悄从经典 Transformer 走到了另一套“默认配置”。相较于最初的绝对位置编码 → RoPE(Rotary Positional Embedding)ReLU / GELU 前馈网络 → SwiGLU 前馈网络。
2025-11-20 10:48:55
2740
42
原创 蓝桥杯算法——状态压缩DP
相对于上面的状态转移,这种情况较好分析,只需要满足当前行玉米田的坏田状态与当前状态是否有同时为1的列即可,若有则当前状态不满足,若无则满足,该条件判断与判断相邻行是否同时种植一致。的玉米田中种玉米,有一些坏掉的土地是不能种玉米的,另外相邻的两个田也不可以种,一共有多少种种植方案(荒地也算一种),如图所示,由于相邻的土地不能种植,此时一号土地已经不能种植。题目与玉米田的思路基本一致,多了一个判断问题,即对角的国王也会相互攻击,为了加入此情况,在状态转移的判断条件上需要加入对角判断的处理。
2025-11-20 10:45:17
1001
7
原创 【工业异常检测】晶圆显微镜检(AOI)异常检测
① 研究的技术路线从传统的基于人工规则和先验知识的异常检测,改进为让模型自主学习正常Wafer Die的统计分布。相较于传统方法依赖阈值、边缘检测或模板匹配,这类方法在复杂光照、拍摄角度变化及微小缺陷场景下往往存在高召回但漏检率高的问题。而基于特征分布学习的无监督方法(如PatchCore、EasyNet、FR-PatchCore等),能够通过对大量正常样本的特征建模,学习“正常”在高维特征空间中的统计规律,并在测试时精确量化样本与正常分布的偏离程度,从而实现对异常区域的定位。
2025-11-20 10:43:41
734
1
原创 【Agentic RL 专题】五、深入浅出Reasoning and Acting (ReAct)
摘要:本文介绍了ReAct(Reasoning + Acting)范式,这是一种结合推理和行动的prompting技术,使大语言模型能够通过交替输出思考内容和行动指令来执行多步决策。与传统的链式思考(CoT)相比,ReAct增加了工具调用和环境反馈环节,形成“思考-行动-观察”的循环。文章详细解析了ReAct的基本元素(Thought、Action、Observation)及其交互流程,并通过伪代码演示了简化版ReAct循环的实现原理。该技术显著提升了模型解决复杂问题的能力,是构建智能代理的关键方法之一。
2025-11-18 08:55:07
1276
63
原创 【大模型面经】千问系列专题面经
摘要 Qwen(通义千问)是阿里推出的大模型家族,包含Qwen1到Qwen3系列。Qwen2.5是目前主流的版本,采用Decoder-Only架构,在注意力机制(GQA)、激活函数(SwiGLU)、归一化(RMSNorm)和位置编码(RoPE)等方面进行优化。其Tokenizer采用大词表+byte-level BPE设计,支持中文、多语种和代码任务。Qwen系列通过数据规模扩展(从7T到36T tokens)和算法改进不断提升性能,涵盖文本、视觉、语音等多模态应用。
2025-11-16 12:23:49
1618
34
原创 【多模态大模型面经】 BERT 专题面经
本文介绍了BERT模型的基本架构、训练过程及核心预训练任务。BERT基于Transformer编码器堆叠,通过双向上下文学习语义表示。主要预训练任务包括遮蔽语言建模(MLM)和下一句预测(NSP)。MLM通过随机遮蔽15%的token(80%替换为[MASK],10%随机词,10%原词)让模型学习双向语义;NSP则判断两句话是否连续。文章还分析了BERT与GPT、Transformer架构的区别,以及BERT设计中的关键问题,如为何不完全使用[MASK]以避免过拟合、NSP任务被后续模型淘汰的原因等。
2025-11-13 16:30:17
2192
40
原创 【机器学习算法】面试中的ROC和AUC
摘要: 本文深入解析ROC曲线与AUC指标的理论与应用,涵盖TPR/FPR定义、ROC几何意义、AUC的三种理解视角(排序概率、能量分布、几何收益),并对比AUC与Accuracy的差异。通过代码实现ROC计算及可视化,帮助读者掌握模型评估核心指标。文中穿插面试常见问题解答,强调AUC作为排序能力的度量价值,尤其适用于类别不平衡场景。从理论到实践,系统提升对分类模型性能评估的理解深度。
2025-11-12 10:00:33
1112
23
原创 【多模态大模型面经】 Transformer 专题面经
本文主要介绍了Transformer架构及其关键技术,包括Encoder-Decoder与Decoder-Only两种架构的适用场景对比、绝对/相对/旋转位置编码的实现原理,以及多头注意力机制的核心数学公式。作者从面试常见问题切入,详细解析了Transformer各模块设计思想,并附上主流大模型架构对比表,帮助读者快速掌握核心概念。文章还分享了位置编码外推问题的解决方案,为理解现代LLM和多模态模型奠定基础。
2025-11-11 15:11:14
2090
35
原创 【Agentic RL 专题】四、深入浅出RAG原理与实战项目
在上一篇文章中,我们探讨了 Memory 模块在多轮会话中的作用,使智能体能够记住历史上下文并进行状态追踪。然而,记忆机制的本质是对已发生事件的存储与复现,它并不能解决知识盲区的问题。在模型训练阶段,我们通常只能接触到有限的数据集;而在实际部署中,智能体往往需要回答来自未知领域的问题。因此,智能体需要的不仅是“记住过去”,更是“学会获取新知识”。RAG(Retrieval-Augmented Generation)正是为此而生的,它让模型具备“外部检索 + 内部生成”的双重能力。
2025-11-05 11:00:49
2033
39
原创 【Agentic RL 专题】二、Agentic RL——Memory
文章摘要 本文探讨了智能体(Agent)中Memory模块的发展历程与技术演进。作者通过对比Gemini 2.5pro和GPT5的记忆能力差异,指出简单的跨窗口记忆功能不同于真正的Agent记忆模块。文章系统梳理了Memory从RAG-style(如MemoryBank、MemGPT)到Token-style再到Structured Memory的演进过程,分析了不同类型记忆模块的特点和应用场景。特别强调了强化学习(RL)在动态调整记忆操作中的重要作用,如Memory-R1框架中采用PPO/GRPO算法优化
2025-11-03 08:57:09
981
36
原创 【Agentic RL 专题】三、深入浅出强化学习算法 TRPO 和PPO
以下是基于输入内容生成的摘要(149字): 本研究从强化学习算法TRPO和PPO切入,探讨其在智能体记忆管理中的应用。TRPO通过KL散度约束确保策略更新的安全性,但存在计算复杂度高、难以适配复杂架构的问题。PPO则采用概率比裁剪机制平衡性能与简易性,成为主流算法。文章对比了两者的特性,指出PPO通过一阶优化实现稳定训练的优势。最后介绍了PPO的Actor-Critic实现框架,包括策略网络的价值评估和动作选择机制。研究强调PPO在大模型微调中的关键作用,为后续智能体记忆优化奠定理论基础。
2025-11-03 08:56:08
1341
46
原创 【Agentic RL专题】一、LLM agent 与 agentic RL
我们在这一篇中,从最直觉的问题——“为什么 LLM 需要行动能力?”——出发,逐步理解了Agentic RL(智能体强化学习)从语言到行动传统的 LLM 只会被动回答,而 Agentic RL 让它学会“感知—思考—行动—反思”,成为真正的智能体(Agent)。两条发展主线一条是构建具备工具使用、记忆、推理能力的LLM Agents;另一条是用强化学习优化 LLM 的策略,即(例如 RLHF、DPO、RLAIF)。它们正在融合,目标是让模型能在交互中不断提升自己。静态对齐 vs. 动态决策。
2025-10-30 10:12:17
1716
32
原创 BLIP 系列全解析与深度面经:从视觉语言统一到跨模态对齐的演进
BLIP和BLIP-2是Salesforce提出的视觉语言预训练模型系列,旨在解决视觉语言任务中理解与生成的割裂问题。BLIP通过统一架构和多任务训练(对比学习、匹配判别、语言生成)实现图文统一预训练,并采用CapFilt自训练策略进行数据增强。BLIP-2在此基础上更进一步,引入Q-Former作为桥梁,冻结预训练的图像编码器和大型语言模型,实现轻量级跨模态对齐。两阶段训练策略使BLIP-2能够高效连接视觉与语言模态,适用于多种下游任务。这一系列工作推动了大模型时代的视觉-语言统一建模发展。
2025-10-29 10:44:52
1348
26
原创 BLIP2 工业实战(一):从零实现 LAVIS 跌倒检测 (微调与“踩坑”指南)
本文将介绍如何从零开始使用LAVIS框架实现一个工业级跌倒检测项目。文章重点记录微调BLIP2模型过程中的关键步骤和常见"坑点
2025-10-28 10:24:08
1212
27
原创 从零学习 Agentic RL(四)—— 超越 ReAct 的线性束缚:深入解析 Tree-of-Thoughts (ToT)
在上一篇文章中,我们构建的 ReAct Agent 已经可以解决“苹果 CEO 家乡”这类多步查询任务。其工作流是一个单线程的 T-A-O 循环这个模式的致命弱点在于:它是一条“单行道”,无法“掉头”或“探索岔路”。想象一下,如果 Agent 在Thought 2这一步做出了一个次优甚至错误的决策(例如,错误地搜索了一个不相关的人名),ReAct 框架没有原生的机制去回溯 (Backtrack)到Thought 1并尝试另一条路径。它只能“硬着头皮”在错误的基础上继续下去,导致任务最终失败。复杂规划。
2025-10-27 10:31:47
855
20
原创 标题:从零学习 Agentic RL(三)—— ReAct 框架:让 LLM 拥有思考与行动的“手脚”
专栏(一)PPO:我们掌握了 Agentic RL 的核心优化引擎。专栏(二)GPRO/RLHF:我们解决了 Agent 的“大脑”偏好问题,知道了如何通过 RM(奖励模型)和 GPRO 这样的算法来**“对齐”LLM**,让它知道什么是“好”的回答。但是,一个真正的“智能体 (Agent)”不应该只是一个“聊天机器人”。它的价值在于执行任务 (Executing Tasks)。它必须能与真实世界交互、使用工具、查询 API、在环境中“做”事。
2025-10-27 10:22:17
1211
7
原创 等效学习率翻倍?梯度累积三连坑:未除以 accum_steps、调度器步进错位、梯度裁剪/正则标度错误(含可复现实验与修复模板)
梯度累积不是“白嫖大 batch”,它对损失标度、调度步进、裁剪与正则都有连锁影响。把 loss/accum_steps 写死在模板里,把调度器与裁剪绑定到优化步,并用 AdamW 解耦权重衰减,会立刻得到与不累积相同的等效学习率与更稳定的曲线。复盘后发现有三个常见坑:没有把 loss 除以 accum_steps;学习率调度器按 micro-batch 步进;梯度裁剪和 L2 正则的标度没有随累积分摊。
2025-09-19 15:30:44
767
4
原创 【Debug日志| 随机下降】
断点续训不是“从当前 loss 继续”,而是“从当前优化动力学继续”。只加载模型权重相当于丢掉了动量、学习率位置与半精度缩放的全部历史信息,难免出现曲线回退与不稳定。把优化器、调度器、GradScaler 与 global_step 一并纳入检查点模板,并在恢复时做一次完整的自检,续训就能与从头训练保持一致的轨迹与表现。
2025-09-18 15:30:53
1124
2
原创 【Debug日志 | BCE 正负极度不平衡】
在高度不平衡的多标签任务里,损失定义 + 阈值选择决定了你到底在学什么。把pos_weight算对、用对,把阈值在验证集上系统地校准,最后定位到三件事:pos_weight与weight的语义弄反;pos_weight数值算错(用“正/负比”而不是“负/正比”);阈值固死 0.5**,在极度不平衡时****没校准。本文记录复盘过程、给出权重正确计算模板与阈值搜索脚本,并附带几个“看日志就能发现”的自检点。
2025-09-16 14:16:10
740
3
原创 全部预测 0?BCE 正负极度不平衡下 pos_weight / weight 用错
全部预测 0?BCE 正负极度不平衡下 pos_weight / weight 用错,外加阈值未校准的翻车复盘(含可复用权重计算与阈值搜索)自选日志 · 深度学习代码实战场景:多标签二分类(医学/安全/广告审核都常见),正样本极少。训练后验证集 AUC 看着还行,但 F1/Recall 极低,模型几乎“全猜 0”。我一度以为是特征不行,最后定位到三件事:pos_weight 与 weight 的语义弄反;pos_weight 数值算错(用“正/负比”而不是“负/正比”);
2025-09-16 13:47:19
859
1
原创 【Debug日志 | Adam”捣蛋鬼“】
很多“怎么都学不动”的 Transformer 实际是权重衰减配置在作祟。最后定位是:把所有参数都做了 L2 正则(),导致 LayerNorm/Embedding/bias 也被衰减;再叠加“用 Adam + L2(耦合)而非 AdamW(解耦)”,等于双重惩罚关键参数,表现成“怎么调都上不去”。
2025-09-15 14:35:34
1628
原创 准确率“卡着不动”:Adam(L2) 把 LayerNorm 与 bias 也权重衰减了——一次权重衰减配置错误的排障记录
准确率“卡着不动”:Adam(L2) 把 LayerNorm 与 bias 也权重衰减了——一次权重衰减配置错误的排障记录(含可复用分组脚本)自选日志 · 深度学习代码实战场景:训练一个 Transformer 小模型(中文分类 + 预训练继续训练都试过)。loss 能降一点但很快平台化,验证集准确率一直在 70% 左右“挪不动”。尝试了调 LR/批量/warmup 都不灵。
2025-09-15 14:25:47
449
3
原创 Transformer 训不动:注意力 Mask 用反 / 广播错位
Transformer 训不动:注意力 Mask 用反 / 广播错位,PAD 被看到导致 Loss 不降(一次从 nn.MultiheadAttention 到 SDPA 的排障实录)自选日志 · 深度学习代码场景:做中文小型 GPT,明明 Batch/学习率都合理,但 loss 长期不降或震荡,ppl 比基线还差。单句推理“看起来能写”,但验证集一直拉胯。
2025-09-10 14:13:47
538
1
原创 【Debug日志 | “捣蛋鬼”广播机制】
很多“玄学发散”并不是优化器/学习率的问题,而是广播在背后捣鬼,而广播机制也是时好时坏,一方面可以方便我们进行计算,但同时,广播也成为了最难发现的bug问题,因为广播机制的存在导致了原来有错误的代码也可以正常运行。这种bug最终定位为logits形状[B,1]与labels形状[B]在 PyTorch 中会广播成[B,B]再逐元素求损失,等价于把每个样本和所有标签两两配对,直接把损失放大且掺杂错误梯度。
2025-09-09 15:16:55
1015
原创 BCE 损失“越大 batch 越离谱”:一次由**形状广播**引发的训练发散([B,1] × [B] → [B,B])排障日志
BCE 损失“越大 batch 越离谱”:一次由形状广播引发的训练发散([B,1] × [B] → [B,B])排障日志自选日志 · 深度学习代码实战场景:二分类/多标签项目,换了更大的 batch 之后,loss 明显偏大、训练更不稳;batch=1 一切正常,batch≥8 迅速发散。
2025-09-09 14:50:43
418
原创 【Debug日志 | 模型loss不降】
在关键层注册backward hook或对非叶子张量调用,观察梯度。return ttap_grad(f, "feat") # ✅ 非叶子张量需要 retain_grad 才能看到 .grad# 观察是否有打印;若无,则在更前面打点,直到发现哪一段“消失”feat的梯度没有打印,说明链路到这里已断。“模型不学”的绝大多数原因,不在“学习率宇宙之谜”,而在计算图被不经意地剪断了。把.detach().data/ 原地操作这三件事盯住,防止计算图被切断。
2025-09-08 15:42:02
1855
原创 PyTorch 训练随机卡死复盘:DataLoader × OpenCV 多进程死锁,三步定位与彻底修复
一次真实的 debug 日志,记录我在图像检测训练中碰到的“训练进度条偶发停住但无报错”的玄学问题,最后定位到 DataLoader 的启动方式与的组合导致的死锁。下面是复盘出现的bug以及debug方法。
2025-09-02 14:57:34
1711
原创 【论文精读 | Locate and Verify: A Two-Stream Network for Improved Deepfake Detection】
⭐ 目前的检测方法难以发挥浅层伪影特征的特点,为了更好的利用伪影的特征,作者提出在定位流中主要关注局部空间细节特征,分类头关注全局语义特征信息。作者在定位流和分类流中都引入了MPFF. 具体来说就是,将流的中间层特征图,将其分为了k个与定位流输出特征图相同分辨率的块(不满一个块用0填充)。作者在文章中提出了,目前(2023)的伪造检测算法是不能够对浅层伪影特征进行有效提取的,这是因为这些模型存在着在未被篡改区域提取伪影特征,这是不现实。来合并这些特征,具体的,通过卷积快得到特征图。:融合空间和频域信息;
2025-07-10 21:58:59
784
原创 【大模型学习 | MINIGPT-4原理】
而BLIP-2 使用的 LLM 主要是 Flan-T5 或 OPT,虽然也支持问答,但语言生成的细腻度和上下文保持能力较弱。第一阶段的训练目标是基于文本对,通过 Q-Former 与冻结图像编码器,使得可学习的 query 向量能够从图像中提取出与文本语义最相关、最具信息量的视觉特征。作者提出了短标题文本对对于模型的训练来说是不够的,会出现不自然标题的现象。在GPT4未开源的情况下,作者认为其表现优越是因为采用了最为先进的LLM模型,因此,作者在BLIP2的基础上,将LLM模型替换为了。
2025-07-02 20:21:39
1153
原创 【大模型学习 | BLIP2原理】
目前(2023)的图文模型都是基于端到端训练方式,大规模的模型和数据集导致了在预训练过程需要的大量计算。第一阶段的训练目标是基于文本对,通过 Q-Former 与冻结图像编码器,使得可学习的 query 向量能够从图像中提取出与文本语义最相关、最具信息量的视觉特征。(2) encoder-decoder-based LLMs : 模型学习在给定图像(query 表征)+ 前缀(自定义)的条件下,生成后缀内容。🟢 ITG:将可学习的向量作为条件输入,以自回归的方式生成图像描述,采用了。
2025-07-01 17:11:32
1964
1
原创 【大模型学习 | BLIP原理】
作者指出,现有的视觉-语言预训练(Vision-Language Pre-training, VLP)模型在语言理解与生成任务上难以同时取得优异表现:一方面,基于编码器(encoder-based)的模型在生成任务中的适应性较差;另一方面,编码器-解码器(encoder-decoder)结构虽然适用于生成任务,但尚未在图文检索等理解任务中取得显著成果。, [Decode]表示句子的开始,end-of-sequence token表示句子的结束;两个模块,这两个模块采用相同的预训练模型,并先用。
2025-06-30 17:36:07
1013
原创 【大模型学习 | CLIP 原理&代码实现】
作者在摘要中指出,传统的监督式学习方法限制了视觉模型的泛化能力,特别是在迁移到新任务或新类别时的能力有限。以往的图像识别任务通常依赖于人为定义的分类标签进行训练,这种方式不仅数据成本高,而且模型更容易过拟合于训练类别。为了解决这一问题,CLIP 提出了一个新的预训练框架:利用网络上现成的大规模图文对(如标题+图像)作为监督信号,将图像与自然语言描述进行匹配,从而在无需特定分类标签的情况下,学习具有通用性的视觉表征。
2025-06-29 14:34:36
864
原创 【大模型学习 | LORA 原理及实现】
在Transformer的架构中,自注意力模块中有四个权重矩阵,MLP模块中有两个权重矩阵。✅ LoRA 通过优化表示 Dense 层权重变化的低秩分解矩阵,间接实现对 Dense 层的微调,而无需直接更新其原始权重。这些方法最主要的缺点是需要在模型的表现和效率进行权衡,并且对于实时推理和更大规模的模型都有局限性。❓ 为什么不直接加个模块,例如在每一层中加入一个小的瓶颈模块。),但最终模型学到的知识(即其在参数空间中的表示)实际上。来冻结训练模型的权重,并且加入可训练的。在多任务场景中,就不能把BA融入。
2025-06-27 16:21:13
810
原创 【推荐算法】单目标精排模型——Wide & Deep
Google应用商店作者认为一个好的推荐模型需要包含和。主要负责记忆法频繁出现的特征项;主要负责挖掘新的特征组合;截至2016年,作者认为目前的基于神经网络的推荐模型会过度泛化并推荐相关性较低的物品(因此,作者提出,在原来的深度神经网络模型中加入线性部分(利用特征之间的简单交互而生成的交互特征是可记忆的、有效的以及可解释的。
2024-12-12 14:18:37
944
原创 【推荐算法】单目标精排模型——DIEN
阿里巴巴广告点击率预测截至2018年,还没有相关的推荐算法考虑到用户兴趣的趋势。作者认为大多数的模型是直接将行为视为兴趣,无法直接提取用户真正的潜在兴趣特征。因此,作者提出了DIEN模型,利用通过用户历史行为序列捕捉用户的兴趣序列特征,通过处理目标的兴趣演变过程。: 笔者认为这篇文章的模型创新关键点在于关注了RNN的隐藏状态,通过一个辅助损失训练每一个隐藏状态,每一个隐藏状态对应一个行为序列的子兴趣,并基于这些子兴趣结合注意力机制进一步学习兴趣的演化发展。
2024-12-11 17:03:38
1020
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅