AI教父蒸馏论文曾被拒,如今DeepSeek引爆AI革命!

蒸馏法最近上了新闻(!)是因为@deepseek_ai。其实蒸馏最初那篇论文《蒸馏神经网络中的知识》在2014年被NeurIPS拒了,理由是没啥新意(确实有点道理),还有就是觉得影响不大。

附文:
蒸馏神经网络中的知识
作者:杰弗里·辛顿¹  、奥里奥尔·维尼亚尔斯¹  、杰夫·迪恩  
同行评审不同意见列表:

  • 这项工作与一般的投稿不同,可能会对NIPS社区的一部分产生重大影响。

  • 勉强低于接受门槛: 这项工作是渐进式的,即使技术上正确且执行得很好,也不太可能产生太大影响。(评审人相当有信心)

  • 勉强高于接受门槛:这项工作是渐进式的,即使技术上正确且执行得很好,也不太可能产生太大影响。(评审人有信心,但不是绝对确定):

论文摘要:
一个非常简单的方法来提升几乎所有机器学习算法的性能,就是在相同的数据上训练许多不同的模型,然后对它们的预测结果取平均[3]。

不幸的是,使用整个模型集合来做预测非常麻烦,而且计算成本可能太高,无法部署给大量用户,特别是如果单个模型是大型神经网络的话。

卡鲁纳和他的合作者[1]已经表明,可以将一个模型集合中的知识压缩到一个单独的模型中,这样更容易部署。

我们使用一种不同的压缩技术进一步发展了这种方法。我们在MNIST上取得了一些令人惊讶的结果,并且展示了通过将一个模型集合中的知识蒸馏到一个单独的模型中,可以显著改进一个广泛使用的商业系统的声学模型。

我们还引入了一种新的模型集合类型,它由一个或多个完整模型和许多专门模型组成,这些专门模型学习区分完整模型容易混淆的细粒度类别。与专家混合模型不同,这些专门模型可以快速并行训练

网友:
1、我认为deepseek所做的蒸馏只是对教师模型输出进行微调-没有软目标(模型具有不同的标记化)

2、蒸馏是惊人的!我已经用过很多次了,而且总是把它作为一个基本概念教给我的学生。

3、我把这个故事告诉了一个6岁的孩子,一个聪明的小家伙说,“所以当他们理解我建造的东西的时候,我已经16岁了”:)(真实的故事!)

4、我在2017年1月用这篇论文做了一个关于模型蒸馏的演讲,听众对此表示怀疑!

5、这篇论文是一个里程碑。

6、我读过一篇非常类似的关于word2vec论文的评论。它说这是一个“低影响的贡献”。从那以后我就再也不相信同行评议制度了

7、很高兴看到蒸馏法得到主流的关注。研究界对突破性论文的不断发展的观点表明了人工智能进步的动态本质。

8、有趣的是,这篇论文当初因为“缺乏创新”被拒了。谁能想到,现在DeepSeek的影响力这么大呢?它是个超强的AI,价格还特别便宜,最重要的是——完全开放!这简直是新产品和应用的巨大推动力啊!

https://www.jdon.com/77464.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值