自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 读QWEN3 TECHNICAL REPORT

特性Off-policy (异策略) 蒸馏On-policy (同策略) 蒸馏数据来源老师提前生成好的静态数据集学生自己实时生成的数据学习目标模仿老师的最终输出(SFT)模仿老师在每一步的决策(最小化KL散度)学习内容知识、格式、答案模板 (What)思考过程、决策逻辑、探索策略 (How)驾驶比喻看教学录像教练坐副驾实时指导在Qwen3中的作用第一阶段:快速打下基础,让学生“形似”第二阶段:精细雕琢,让学生“神似”为什么这个组合策略如此高效?报告中提到,这套蒸馏流程比纯粹的强化学习(RL)

2025-12-14 17:37:42 875

原创 为什么cls在经过encoder之后,它的向量会被认为包含了整句话的信息?

赋予了它看见全局的能力。NSP 任务强迫它必须学会概括全局信息以便做分类。它本身没有词义干扰,专职做“总结者”。

2025-12-13 20:28:26 477

原创 QWEN3-VL架构分析

视觉输入形状:视觉编码 (Vision Encoder)经过Conv3d Patch Embed→\to→经过27层Transformer处理,特征维度保持1152。视觉-语言对齐 (Merger): 将相邻的2×22\times22×2个Patch拼接→\to→维度变成。同时Patch数量减少为原来的141/41/4。Projection: 线性层将4608映射为4096。输出视觉Token形状:。文本输入Tokenize→\to→Embedding→\to→。

2025-12-06 21:58:44 1026

原创 基于PEFT实现小样本量医疗多模态训练(全流程)

这是一个验证性项目,主要用于减少大模型幻觉,和减少微调数据量而研发的。目前测试下来能够实现预期功能。如果有对项目的更好建议,欢迎大家一起讨论。所有代码均已上传github,与本人csdn同名。

2025-12-01 17:00:38 673

原创 读Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics的总结

本篇论文主要解决,在多任务训练中,如何动态平衡各项Loss在多任务学习(Multi-Task Learning, MTL)中,最终的 Loss 通常是各个子任务 Loss 的加权和:如果手动设置w1,w2这些参数会有以下问题1.量级不同:不同部分的loss并没有一个标准的基线2.每个任务难度不同:有的任务可能简单,loss会下降很快,使用固定loss无法平衡整个训练过程。

2025-11-28 17:09:39 345

原创 LLM项目实战:使用Llama-factory进行DPO训练

LLM训练三板斧,预训练,微调,RHLF。DPO属于是最后环节RHLF中的一个方法,关于RLHF主流方法有PPO,DPO,GROP。关于这三种介绍RLHF方法,我之前分享过对着三种方法的一些思考,有兴趣的同学可以看看。因为DPO对硬件的需求最小,显存占用最低,所以我们先采用DPO进行训练。硬件信息:4070 12g*2 、64g内存、操作系统:Ubuntu24.04、模型:QWEN-3vl-2B(因为我这个模型是上个多模态任务sft过的,所以选择vl模型,没有图片输入需求的同学可以下载纯语言模型)

2025-11-27 14:49:05 1069

原创 小样本量LORA微调经验

因为样本量不大,所含的信息也不多,所以lora秩的选择我倾向于8-12,我尝试过16和32,能够有非常小的提升,但是和训练速度比起来,基本上可以忽略不计。我的训练是一张图像配一个100字的描述,所以lora的秩为12是绰绰有余的。如果我们的下游任务差异不是很大,都是同方向的任务,其实只在QKV层上添加LORA模块就可以,这样反而能获得更好的泛化性,同时节约参数量和训练时间。现在基本默认的学习率是1e-5,本人在训练时设置1e-4,基本上loss都可以稳定,如果不稳定可以先热身几百步,让lora层熟悉一下。

2025-11-27 12:21:28 189

原创 理解Flash Attention(少量公式)

在前向传播时,我们会保存最大值m和l,反向传播的时候就可以快速计算激活值,可以看成另外一种形式的梯度检查点。Flash Attention 为什么那么快?原理讲解_哔哩哔哩_bilibili。

2025-11-23 17:59:13 541

原创 使用本地LLM模型对文本进行结构化提取(基于ollama)

这篇文章能帮助你快速结构化数据,但是有一点不足是,我不太熟悉ollama的操作,所以没有在程序中实现并行操作(双显卡机器只有一张在跑,并且只能一段一段执行操作),导致无法充分利用硬件资源,希望有大佬可以实现分布式操作或者提高运行效率。

2025-11-22 00:32:39 435

原创 transformer如何推理得出第一个token

之前看transformer一直不理解第一个字符是如何输出的,从原论文给出的图像上可以看到,从encoder输出的矩阵直接进入了mha计算,那么mha需要qkv三个字符进行计算,这里只有两个,怎么才能进行第一个token的推理呢?简单来说,在进行推理时,decoder会在输入端生成一<sos>字符,告诉decoder“我要开始推理啦”,然后这个<sos>也会作为query矩阵,参与到第一个token的生成中。之后的自回归输出在网上就能找到大把的视频讲解了。

2025-11-18 17:02:14 255

原创 VIT网络入门:读Transformers for Image Recognition at Scale论文

Vision Transformer(VIT)是一种基于Transformer架构的图像识别方法,由2020年CVPR论文首次提出。其核心思想是将图像分割为16x16的patch(如224x224图像被分为196个768维patch),通过类似NLP的token处理方式输入Transformer模型。模型包含三部分:1)Embedding层通过卷积操作将图像转为序列数据,添加分类token和位置编码;2)Encoder层进行归一化、多头注意力等操作;3)Hybrid模型可先进行传统CNN特征提取。该方法突破

2025-11-18 15:24:44 211

原创 机器学习入门:GAN 生成式对抗网络

从而 generator 为了生成能够满足 discriminator 的图片,生成第二批图片,不断“进化”去满足 discriminator,第二批图像生成之后,discriminator 也会更新,提出更高的要求。这是因为神经网络在一张相似的图片中,既学习到了向左的车辆也学习到了向右的车辆,所以他会认为,同时发生向左向右都是可以的。discriminator 的参数是固定的,固定有一个打分的标准,然后不断更新 generator 的参数去训练,提高模型的符合度。让模型输出它学习的概率,而不是所有可能。

2025-11-01 21:23:17 269

原创 读Attention is all you need的一些问题

使用encoder-decoder架构,例如我输入“你好”两个字,首先经过encoder生成一个2*512的矩阵,然后把encoder生成的这个矩阵喂给decoder进行识别,decoder把矩阵吃进去,输出“hello”,这是一个基本的运行逻辑。当dk比较小时候,其实除不除对结果的影响不大,但是当dk比较长,即你的序列比较长的时候,最大的值算出来的最大值会很大,所以在进行softmax操作时,那个最大的值会趋近于1,其他值会更靠近0,导致分布有偏差,大部分的数都集中在0附近,最后导致梯度的计算非常小。

2025-11-01 21:20:09 259

原创 激活函数的选择

神经元死亡问题,如果某个神经元在训练过程中,其加权输入持续为负数(例如,由于学习率设置过高、不恰当的权重初始化或较大的负梯度更新导致),那么该神经元的梯度将永远为0。激活函数一般是非线性函数,在不断深入的迭代中逐渐通过激活函数的嵌套,使模型不断趋近于我们希望得到的真实值。它的输出以0为中心,这是Tanh函数相对于Sigmoid函数的一个核心优势。数学表达式非常简单,不涉及指数运算,仅是取输入的正部。当输入x的绝对值很大(无论是正还是负)时,函数曲线会变得非常平缓,导致梯度接近于0,这就是所谓的。

2025-10-14 17:30:28 319

原创 机器学习入门:梯度下降方法对 Optimization 的思考

如上图所示,橙色叉叉为 critical point,当步长过大时,很容易导致 loss 值震荡,所以我们不断调小步长,得到右图,右图显然在y 轴梯度较大的情况下能很好的趋近橙色叉叉,但是在 x 轴方向上由于梯度过小,无论做多少次的迭代,只能在 x 轴方向轻微向橙色叉叉靠近。这样的想法非常好,但是同样有一个 bug,它仅仅适用于坡度一致的学习,当我们遇到下图的问题时,沿着 x 轴的方向,不同的 w1 会有不一样的坡度,所以我们需要 learning rate 有更加灵活的方法。4. 在谷间震荡的问题。

2025-10-12 21:14:51 345

原创 机器学习入门:分类问题

我们希望归类只输出 0 和 1,但经过模型输出后 y 可能是任何值,所以我们需要softmax 操作进行归一化并去除负值,softmax 附加的一个效果是能让两个不同的 y 的差值更加的大(例如 1 和 3,经过 softmax 操作后成为 0.1 和 0.9 )在定义 loss 函数之后,我们希望有一个较好的训练集,能让我们在训练集上训练的函数,在测试集上有良好的表现,那我们该如何评价一个训练集的好坏呢?STEP 1:我们需要构想,如果有一个函数,它应该长什么样,能够有功能去分类宝可梦和数码宝贝?

2025-10-12 21:14:06 218

原创 认识机器学习:神经网络和卷积神经网络

如果我们使用神经网络学习,每个节点都会历遍图片中的每一个像素,从而学习整个图片的特征。使用梯度方法来获得最低 loss,对应高数中求一阶导获得函数极值点,hyperparameters 对应参数变化的步长,因为 loss 并不是一个平滑的曲线,而是由一个个画成的,所以如果步长取得过大,可能会错过极值点。parameter sharing(参数共享):例如两个节点,都是对动物的眼睛进行检测,但是一个在左上角,一个在右上角,我们可以让他们参数共享,即每个像素点的权重参数共享,从而减少数据量。

2025-10-12 21:13:34 549

原创 科勒照明系统设计(以落射式荧光显微镜为例)

科勒照明系统是显微镜照明的重要技术,分为反射式和透射式两种类型。其核心原理是通过光源平面与孔径光阑共轭、视场光阑与照明场共轭,实现均匀照明且避免光源像干扰成像。相比临界照明,科勒系统具有光源干扰小、照明均匀、光场可控等优势。文章详细阐述了基础透射式和落射式荧光显微镜的科勒照明设计方法,重点介绍了转移透镜在简化长光路系统中的应用。通过ZMAX软件模拟验证了设计方案的可行性,并提供了100x物镜模型供参考。该系统设计仅适用于近轴远场条件,透镜参数决定了整体系统结构。

2025-07-09 20:32:42 3236

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除