- 博客(7)
- 收藏
- 关注
原创 卷积神经网络求解尺度、感受野的公式
sizelstridesizel−12∗padding−kernelsize1推导过程如下:sizelsizel−12∗padding然后开始卷积(为方便推理,仅考虑一维的情况),首先从起点开始的kernelsize个值中卷积得到一个结果值,sizelsizel−12∗padding−kernelsi。
2025-09-10 20:06:46
1567
原创 python求最大公约数(GCD)和最小公倍数(LCM)
辗转相除法是一种更高效的求最大公约数的方法。其基本思想是:对于整数a和b(a > b),它们的最大公约数等于a除以b的余数c和b的最大公约数。
2025-08-31 22:33:00
660
原创 大模型调优方法(Prompt-tuning, Prefix-tuning, P-tuning, Adapter, LoRA, IA3)
Adapter方法是在模型的 Transformer 层中,插入小的可训练模块(Adapter),训练过程中冻结原始大模型参数,通过仅训练新增的小模块,在保留LLM性能的同时,将其迁移到指定的场景。在Prompt-tuning中,输入文本前插入的是可学习的向量,相当于训练过程中直接学一张“prompt 向量表”,每个 soft token 就是一组参数。,通过训练这段向量,使大模型快速适配多项任务,在此过程中预训练的LLM参数冻结,不参与训练。从Prompt构建的角度而言,上述方法也被称为。
2025-08-28 18:20:55
1548
原创 神经网络参数初始化
将模型权重随机初始化为一个较小的值,这可以打破对称性,为神经元提供不同的训练起点,充分利用网络的表达能力,通常从均匀分布或高斯分布中随机采样。思想与Xavier初始化一致,但更适合 ReLU 、Leaky ReLU 等非对称激活函数。更适合Sigmoid,tanh等对称激活函数。弊端是仍可能导致梯度消失、梯度爆炸。
2025-08-27 15:43:32
308
原创 优化器的原理和演进(SGD, AdaGrad, RMSProp, Adam, AdamW)
RMSProp是AdaGrad的改进,AdaGrad的历史累计梯度会随时间不断增加,这会导致在训练后期学习率一定会趋近于零,使训练趋于停滞,可能使模型收敛不充分。前面的方法对于所有参数,都使用相同的学习率,但在实际训练过程中,有些参数训练的快,而有些参数训练的慢,尤其是对于稀疏特征输入的情况,此时需要引入。在训练过程中,梯度值很容易产生“抖动”,使优化路径产生震荡,为此我们需要引入动量(Momentum)机制,即当前优化的梯度值为过去所有梯度值的。,从而使梯度变化更加平缓,优化路径路径更平滑。
2025-08-27 10:42:12
709
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅