Knowledge Distillation(6)——Large scale distributed neural net training through online distillation

最新推荐文章于 2024-11-21 16:03:17 发布

原创最新推荐文章于 2024-11-21 16:03:17 发布 · 1k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

Knowledge Distillation 知识蒸馏专栏收录该内容

11 篇文章

订阅专栏

ICLR2018论文介绍，GoogleBrain与DeepMind合作，通过在线蒸馏(Codistillation)方法，实现大规模分布式神经网络训练，显著提升训练速度与模型精度。相较于传统SGD，此方法在大量并行网络间共享知识，加速收敛。

Large scale distributed neural network training through online distillation

概述

Google Brain, Google DeepMind等团队合作的一篇论文，Hinton的名字赫然在列，发表在ICLR2018.

概述

主要想法是，现在的分布式SGD是有缺陷的，因为需要花费大量的时间。且在投入了一定的机器后，继续投入计算资源，无法进一步缩短训练时间或者提升模型效果。

因而提出用online distillation的方式，进行大规模分布式神经网络训练，以期获得更快的训练速度并提升模型精度。该工作提出了Codistillation的概念，通过大规模实验，发现codistillation方法提高了准确性并加快了训练速度，并且易于在实践中使用。

对Codistillation的定义：
在这里插入图片描述
作者构造的是同样的网络并行训练，并且在未收敛时就使用distillation loss
感觉这篇文章是Deep Mutual Learning的升级版本，同时让许多同样的网络进行并行训练。效果是大家都学的更快还学的更好了
同样耗费上百个GPU的话，使用SGD加大batchsize没啥效果，但是这种codistillation的方式看似训练了太多模型，但是大家一起学、互相学，收敛的更快了~

不过这篇论文对于我来说没多大帮助，毕竟我没有128GPUs。。。所以看看就好。
工业界大厂还是暴力啊，不过实验室小作坊也有自己的玩法哈哈~

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。