Datawhale AI夏令营 task2 打卡记录

原创已于 2025-07-16 00:06:51 修改 · 621 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-07-15 23:56:00 首次发布

学习心得：深度学习实践之旅

通过参与DataWhale的“动手学深度学习”活动（活动ID: 323），我完成了模块4的第13课学习。这个模块聚焦于神经网络优化算法的实践应用，包括梯度下降、反向传播等核心概念。整个学习过程让我受益匪浅，不仅提升了理论知识，还增强了代码实现能力。以下是我的学习心得，分步分享我的体验和收获。

1. 学习内容回顾

课程的核心是讲解神经网络训练中的优化技术，重点包括：
- 梯度下降算法的工作原理：通过迭代更新权重来最小化损失函数，公式表示为：$$\theta_{t+1} = \theta_t - \eta \nabla J(\theta_t)$$，其中 $\eta$ 是学习率。
- 反向传播的实现：如何高效计算梯度，并应用于多层网络。
- 实践部分：使用Python和PyTorch框架完成代码练习，例如构建一个简单的全连接网络并训练MNIST数据集。
学习资源包括视频讲解、在线文档和动手编程任务，这让我能从理论到实践逐步深入。

2. 个人收获与体验

理论知识深化：之前我对优化算法只停留在表面理解，这次学习让我明白了梯度下降的变体（如SGD、Adam）的区别和适用场景。例如，Adam算法结合了动量概念，能更快收敛，这在实验中得到了验证。

编程技能提升：通过反复编写代码，我掌握了PyTorch的基本操作。以下是一个简化的梯度下降实现片段，帮助我巩固了理解：

import torch
def gradient_descent(model, data, labels, lr=0.01, epochs=100):
    optimizer = torch.optim.SGD(model.parameters(), lr=lr)
    for epoch in range(epochs):
        outputs = model(data)
        loss = torch.nn.functional.mse_loss(outputs, labels)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

这段代码让我直观地看到梯度更新过程，并调试了超参数的影响。

问题解决能力：在实验中，我遇到了梯度消失的问题（网络层数过多时梯度变小）。通过查阅资料和调整激活函数（如改用ReLU），我成功解决了问题，这锻炼了我的调试和分析能力。

3. 遇到的挑战与克服方法

主要挑战：优化算法的数学推导较抽象，初期理解困难。例如，反向传播的链式法则计算需要较强的数学基础，公式如：$$\frac{\partial L}{\partial w} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial w}$$，容易混淆。
克服策略：
- 逐步拆解：我先从简单例子入手，比如手动计算一个两层的梯度，再扩展到代码实现。
- 社区互助：DataWhale的学习群组提供了宝贵支持，我通过提问和讨论，快速澄清了疑惑。
- 反复实践：我额外运行了多次实验，比如调整学习率观察收敛速度，这加深了感性认识。
整体上，挑战让我更坚韧，每次突破都带来成就感。

4. 未来计划与总结

这次学习不仅让我掌握了神经网络优化的关键技术，还培养了“学以致用”的习惯。未来，我计划：
- 将所学应用到实际项目，如参加Kaggle竞赛。
- 继续学习后续模块，探索更高级主题如卷积神经网络（CNN）。
- 分享知识，帮助其他学习者，回馈社区。
总之，DataWhale的这个活动是高效的学习平台，它通过结构化课程和动手实践，让深度学习变得触手可及。我强烈推荐给所有对AI感兴趣的朋友——坚持动手，你也能收获满满！