
DeepLearning
文章平均质量分 68
记录前沿的深度学习相关内容,例如论文解读,常见算法等
mygugu
好好学习天天向上
展开
-
业界分布式训练框架学习笔记1
分布式训练框架的实现逻辑学习笔记1、Why?深度学习模型尺寸逐渐扩大,训练数据量显著上升。为了更好利用训练资源,提高效率。2、 分布式训练原理主要两种思路:一是模型并行,另一个是数据并行。(1) 模型并行即将一个模型分拆为多个小模型,分别放在不同设备上,每个设备可跑模型的一部分(例如,UNet网络就是将模型拆为两部分,分别在两块卡上训练)。存在的问题:模型在训练时需要更新梯度等,使得模型各部分之间关联性较大,因此这种方式效率较低,需要分散在不同设备之间的频繁通信,一般少用。(2) 数据并行原创 2022-05-10 18:33:01 · 676 阅读 · 0 评论 -
Deep Learning分布式训练1---Horovod with Pytorch
个人学习过程记录----------官网链接:Horovod with PyTorch — Horovod documentation实验背景:数据集的大小、模型的复杂度(存储和计算量),以及当下计算设备的硬件资源的利用,都影响着模型训练时间。同时为追求模型的最佳效果,模型复杂度也相当高。实验目的:利用Horovod实现Pytorch算法分布式训练。当前分布式深度学习方式:(1) 模型并行VS 数据并行(2)通信机制:网络拓扑(ParameterServer 和All原创 2022-03-14 15:01:22 · 2668 阅读 · 0 评论 -
神经网络训练零碎点记录
1. tensorboard localhost:6006打开报错,不显示内容:解决:terminal终端(runs为每次运行py文件时产生的日志文件目录)cd runs/tensorboard --logdir 文件名 --host=127.0.0.12. 将pycharm 的Runs窗口下的输出保存到某个文件中:terminal-->输入python xxx.py>out.txt其中xxx.py为需要运行的程序,out.txt就是你想要输出的文件名。3.。。。原创 2021-11-29 14:12:39 · 1077 阅读 · 0 评论 -
Preparing lessons: Improve knowledge distillation with Better supervision
问题:教师的logits进行训练可能出现incorrect和overly uncertain的监督解决: (1) Logits Adjustment(LA) (2) Dynamic Temperature Distillation(DTD)LA:针对错误判断的训练样本,交换GT标签和误判标签的logits值DTD:一些uncertain soft target是因为过高的温度值,因此可采用动态温度计算soft target,该温度在训练期间自适应更新----->...原创 2021-08-06 14:51:40 · 556 阅读 · 0 评论 -
Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation
a ResNet equipped with proposed self distillation:上图中(左侧图示绿色箭头与蓝色有问题,参考图中loss的文字说明):(1)所有分类器可独立使用,各自有不同的accuracy和响应时间. (2) 虚线以下部分只在训练阶段需要三种监督方式:Loss1: 交叉熵:隐藏在数据中的知识直接从标签引入到所有分类器。 qi:分类器Θi/C的softmax层输出Loss2: KL散度:旨在将浅层分类器近似最深层分类...原创 2021-08-04 09:55:08 · 895 阅读 · 2 评论