深度学习中常用概念总结

ku_code_ku

已于 2024-08-08 18:26:05 修改

阅读量692

点赞数 8

分类专栏：深度学习文章标签：深度学习人工智能

于 2024-08-08 18:25:32 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/m0_56022510/article/details/141033487

版权

深度学习专栏收录该内容

1 篇文章

订阅专栏

最近在做深度学习，里面涉及到很多概念，有的名称都差不多容易记混。所以写这篇文章总结一下。眼过千遍不如手过一遍。

1. 轮数（Epochs）:
一轮（Epoch）指的是整个训练数据集在训练过程中被完整使用一次。每个 Epoch 包含多个批次（batches），在每个 Epoch 结束后，模型通常会在验证集上进行评估。

2. 步数（Steps）:
步数（Steps）通常指的是训练过程中的迭代次数。在每个 Step 中，模型进行一次前向传播和后向传播。

3. 批处理大小（Batch Size）:
批处理大小（Batch Size）是指每次迭代中用于训练的样本数量。它影响计算资源的利用和模型训练的稳定性。

4. 微批处理大小（Micro-batch-size）:
微批处理大小是在模型并行或流水线并行中使用的概念，指的是在每个 GPU 或每个并行阶段中处理的批次大小。它是批处理大小的进一步划分。

5. 学习率（Learning Rate）:
学习率是优化算法中用于调整模型权重的步长。它决定了在每次迭代中参数更新的幅度。

6. 训练吞吐量:
训练吞吐量指模型训练过程中单位时间内能够处理的数据量，通常以样本/秒或批次/秒来衡量。

7. 加速器内存（Accelerator Memory）:
加速器内存是专用于支持 GPU 或 TPU 等硬件加速器的高性能计算任务的内存，用于存储模型参数、中间计算结果等。

8. 词大小（Word-size）:
在深度学习中，词大小通常指的是模型中词嵌入（Word Embedding）的维度，即表示每个词的向量的长度。

9. 数据并行（Data Parallel）:
数据并行是一种并行化技术，通过将数据集分割成多个批次分配到多个处理器上同时训练，以此来加速训练过程。

10. 上下文并行大小（Context Parallel Size）:
上下文并行大小可能是指在使用特定深度学习框架时，如 Megatron-LM 中的设置，用于控制跨多个 GPU 分配模型的不同部分的方式。

11. 张量模型并行大小（Tensor Model Parallel Size）:
张量模型并行大小是指在模型并行中，模型的张量如何分配到不同的处理器上。它决定了模型的哪一部分将在不同的 GPU 上计算。

12. 管道模型并行大小（Pipeline Model Parallel Size）:
管道模型并行大小是指将模型分成多个阶段，每个阶段可以并行处理不同的数据微批次，从而提高计算效率和资源利用率。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。