- 博客(4)
- 收藏
- 关注
原创 Datawhale X 李宏毅苹果书 AI夏令营 (Task 3)
当输入数据中,每个特征的值范围差异很大,那么在某些方向上,模型的预测误差会变化得非常快,而在其他方向上,误差变化得非常慢。其的目的就是在每个训练批次中,对每一层的输入进行归一化处理,使得它们的分布保持一致。随着网络层次的加深,感受野会逐渐扩大,能够捕捉到更复杂的特征。卷积层通过滑动卷积核在输入图像上执行卷积操作,生成特征图,这些特征图随后被送入下一层进行进一步的处理。对图像做下采样,减少特征图的空间尺寸,同时保留重要的特征信息,并不会影响做出判断。特征映射是卷积层的输出,它们包含了输入图像的局部特征信息。
2024-09-03 22:17:42
169
原创 Datawhale X 李宏毅苹果书 AI夏令营 (Task 2)
按照上述的设定,分类实际过程是:输入 x,乘上 W,加上 b,通过激活函数 σ,乘上W′,再加上 b′ 得到向量 yˆ。但实际做分类的时候,往往会把 yˆ 通过 softmax 函数得到 y′,才去计算 y′ 跟 yˆ 之间的距离。AdaGrad为每个参数单独计算学习率,每个参数的学习率会根据其历史梯度的大小进行调整。对于频繁更新的参数,其学习率会逐渐减小,而对于不常更新的参数,学习率则相对较大。同一个参数的同个方向,学习率也是需要动态调整的,于是提出RMSProp。如果 α 设很大趋近于 1,代表。
2024-08-31 20:31:31
348
原创 Datawhale X 李宏毅苹果书 AI夏令营 (Task 1)
在物理的世界里面,一个球从高处滚下来的时候,它并不一定会被鞍点或局部最小值卡住,如果将其应用到梯度下降中,这就是动量。在计算梯度的时候,并不是对所有数据损失计算梯度,而是把所有的数据分成一个一个的批量。判断临界点是局部极小值还是鞍点,需要通过泰勒级数近似得到损失函数。鞍点的梯度是0,但不是局部极小值。鞍点周围存在损失更低的点。该点是损失最小的点,周围其他点的损失都更大。批量梯度下降法,每次更新更稳定、更准确。随机梯度下降法,更容易逃离局部最小值。批量大小越大,验证集准确率越差。梯度为0的点,统称为临界点。
2024-08-26 15:36:33
272
1
原创 Llama 3 Web Demo 部署- XTuner 小助手微调- LMDeploy 部署 Llama 3
本博客为基于机智流、Datawhale、ModelScope:Llama3-Tutorial(Llama 3 超级课堂)的作业。
2024-05-05 12:29:32
1025
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人