weixin_46524125-优快云博客

原创 Datawhale X 李宏毅苹果书 AI夏令营 (Task 3)

当输入数据中，每个特征的值范围差异很大，那么在某些方向上，模型的预测误差会变化得非常快，而在其他方向上，误差变化得非常慢。其的目的就是在每个训练批次中，对每一层的输入进行归一化处理，使得它们的分布保持一致。随着网络层次的加深，感受野会逐渐扩大，能够捕捉到更复杂的特征。卷积层通过滑动卷积核在输入图像上执行卷积操作，生成特征图，这些特征图随后被送入下一层进行进一步的处理。对图像做下采样，减少特征图的空间尺寸，同时保留重要的特征信息，并不会影响做出判断。特征映射是卷积层的输出，它们包含了输入图像的局部特征信息。

2024-09-03 22:17:42 169

原创 Datawhale X 李宏毅苹果书 AI夏令营 (Task 2)

按照上述的设定，分类实际过程是：输入 x，乘上 W，加上 b，通过激活函数 σ，乘上W′，再加上 b′ 得到向量 yˆ。但实际做分类的时候，往往会把 yˆ 通过 softmax 函数得到 y′，才去计算 y′ 跟 yˆ 之间的距离。AdaGrad为每个参数单独计算学习率，每个参数的学习率会根据其历史梯度的大小进行调整。对于频繁更新的参数，其学习率会逐渐减小，而对于不常更新的参数，学习率则相对较大。同一个参数的同个方向，学习率也是需要动态调整的，于是提出RMSProp。如果 α 设很大趋近于 1，代表。

2024-08-31 20:31:31 348

原创 Datawhale X 李宏毅苹果书 AI夏令营 (Task 1)

在物理的世界里面，一个球从高处滚下来的时候，它并不一定会被鞍点或局部最小值卡住，如果将其应用到梯度下降中，这就是动量。在计算梯度的时候，并不是对所有数据损失计算梯度，而是把所有的数据分成一个一个的批量。判断临界点是局部极小值还是鞍点，需要通过泰勒级数近似得到损失函数。鞍点的梯度是0，但不是局部极小值。鞍点周围存在损失更低的点。该点是损失最小的点，周围其他点的损失都更大。批量梯度下降法，每次更新更稳定、更准确。随机梯度下降法，更容易逃离局部最小值。批量大小越大，验证集准确率越差。梯度为0的点，统称为临界点。

2024-08-26 15:36:33 272 1

原创 Llama 3 Web Demo 部署- XTuner 小助手微调- LMDeploy 部署 Llama 3

本博客为基于机智流、Datawhale、ModelScope：Llama3-Tutorial（Llama 3 超级课堂）的作业。

2024-05-05 12:29:32 1025 4

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人