自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 卷积神经网络求解尺度、感受野的公式

sizel​stridesizel−1​2∗padding−kernelsize​1推导过程如下:sizel​sizel−1​2∗padding然后开始卷积(为方便推理,仅考虑一维的情况),首先从起点开始的kernelsize个值中卷积得到一个结果值,sizel​sizel−1​2∗padding−kernelsi。

2025-09-10 20:06:46 1567

原创 python求最大公约数(GCD)和最小公倍数(LCM)

辗转相除法是一种更高效的求最大公约数的方法。其基本思想是:对于整数a和b(a > b),它们的最大公约数等于a除以b的余数c和b的最大公约数。

2025-08-31 22:33:00 660

原创 大模型调优方法(Prompt-tuning, Prefix-tuning, P-tuning, Adapter, LoRA, IA3)

Adapter方法是在模型的 Transformer 层中,插入小的可训练模块(Adapter),训练过程中冻结原始大模型参数,通过仅训练新增的小模块,在保留LLM性能的同时,将其迁移到指定的场景。在Prompt-tuning中,输入文本前插入的是可学习的向量,相当于训练过程中直接学一张“prompt 向量表”,每个 soft token 就是一组参数。,通过训练这段向量,使大模型快速适配多项任务,在此过程中预训练的LLM参数冻结,不参与训练。从Prompt构建的角度而言,上述方法也被称为。

2025-08-28 18:20:55 1548

原创 神经网络参数初始化

将模型权重随机初始化为一个较小的值,这可以打破对称性,为神经元提供不同的训练起点,充分利用网络的表达能力,通常从均匀分布或高斯分布中随机采样。思想与Xavier初始化一致,但更适合 ReLU 、Leaky ReLU 等非对称激活函数。更适合Sigmoid,tanh等对称激活函数。弊端是仍可能导致梯度消失、梯度爆炸。

2025-08-27 15:43:32 308

原创 梯度爆炸与梯度消失

较为复杂的网络可能会出现梯度爆炸和梯度消失现象,产生的主要原因是,最终导致梯度爆炸或梯度消失。

2025-08-27 14:28:18 221

原创 优化器的原理和演进(SGD, AdaGrad, RMSProp, Adam, AdamW)

RMSProp是AdaGrad的改进,AdaGrad的历史累计梯度会随时间不断增加,这会导致在训练后期学习率一定会趋近于零,使训练趋于停滞,可能使模型收敛不充分。前面的方法对于所有参数,都使用相同的学习率,但在实际训练过程中,有些参数训练的快,而有些参数训练的慢,尤其是对于稀疏特征输入的情况,此时需要引入。在训练过程中,梯度值很容易产生“抖动”,使优化路径产生震荡,为此我们需要引入动量(Momentum)机制,即当前优化的梯度值为过去所有梯度值的。,从而使梯度变化更加平缓,优化路径路径更平滑。

2025-08-27 10:42:12 709

原创 【python】判断质数的四种方法

n​。

2025-08-25 12:10:09 1766

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除