Deep Learning
文章平均质量分 83
东湖山上
上海交通大学电子与计算机工程研究生,聚焦AI与芯片交叉领域,主要研究方向为图神经网络与大语言模型,持续分享技术实践与开源项目,秉持技术敬畏与持续精进。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DL简记5---如何评估大模型在训练或推理时每个batch的GPU显存利用率和运行时间?
如何评估大模型在训练或推理时每个batch的GPU显存利用率和运行时间?原创 2025-05-08 21:27:43 · 367 阅读 · 0 评论 -
DL简记4---如何在多模态表征学习中做模态的消融实验?
如何在多模态表征学习中做模态的消融实验?原创 2025-05-08 16:18:24 · 1442 阅读 · 0 评论 -
DL简记3---从GPU服务器快速传大量数据到本地
在工作中,经常会遇到需要将服务器上大量数据快速传输到本地的场景。无论你是程序开发者、数据科学家还是系统管理员,选择一套既高效又安全的数据传输方案都是十分重要的。本文将介绍三种常用方法,并总结各自的优缺点和适用场景,帮助你根据实际需求选择合适的传输方案。原创 2025-04-16 18:04:51 · 938 阅读 · 0 评论 -
DL简记2---深度学习模型训练过程中Checkpoint的应用
Checkpoint技术通常用于训练深度学习模型时,定期保存模型的状态,以便在训练过程中出现中断时可以从最近的检查点(checkpoint)恢复,继续训练而不需要从头开始。它可以有效避免因长时间训练或系统崩溃而丢失训练进度。定期保存:每训练一定数量的 epoch 后,模型会保存一个 checkpoint,包含模型权重、优化器状态、当前训练状态等。恢复训练:当训练中断或想要恢复训练时,通过调用resume()方法加载 checkpoint 文件,恢复训练的状态,包括模型参数和优化器状态。保存超参数。原创 2025-03-28 16:31:01 · 1312 阅读 · 0 评论 -
DL简记1---深度学习分布式训练模型的步骤及实现
对于很多数据量比较大且工作任务比较复杂的深度学习模型,只用一张GPU显卡训练太慢,我们就会想到用多张GPU来加速我们模型的训练。下面主要展示一台GPU服务器(3张3090GPU显卡)的应用实例,对于集群服务器(多机器)还是有所差异。1. 分布式训练的核心在于:- 初始化进程组;- 数据分片;- 模型梯度同步。2. torch.distributed提供了完整的分布式支持,结合 NCCL 实现高效的 GPU间通信。3. 使用torchrun自动管理进程,简化了分布式训练的启动和配置。原创 2024-11-21 17:12:00 · 585 阅读 · 0 评论
分享