稀疏计算、彩票假说、MoE、SparseGPT

原创

已于 2024-02-23 18:09:57 修改 · 1.3k 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#机器学习 #人工智能 #深度学习

于 2024-02-23 18:09:13 首次发布

本文探讨了稀疏计算作为深度学习未来发展的重要方向，介绍了彩票假说、MoE结构以及SparseGPT等技术，强调了通过参数剪枝减少计算量，提升模型效率的方法。墨芯科技和A100GPU的应用展示了这一技术的实际潜力和应用案例。

稀疏计算可能是未来10年内最有潜力的深度学习方向之一，稀疏计算模拟了对人脑的观察，人脑在处理信息的时候只有少数神经元在活动，多数神经元是不工作的。而稀疏计算的基本思想是：在计算过程中，将一些不重要的参数设置为0，从而减少计算量。而这种计算量的减少规模经常是10倍级别，这为部署提速提供了想象力。业界已有一些公司例如墨芯科技在做这方面的工作，并取得了一些成果，大家可以看他们的宣传视频（https://mp.weixin.qq.com/s/NHydrLhqJYGbvF7eY2m9RA），下面推荐几篇经典的文章：

The Lottery Ticket Hypothesis（彩票假说）

推荐理由：这是这个领域里非常经典的一篇文章，作者提出了一种生成稀疏的高性能网络的简单方法：在对网络进行训练后，将所有小于某个阈值的权重设置为0（对其进行剪枝），将其余权重重置回其初始配置，然后在保证被剪枝的权重处于冻结状态的情况下（未经过训练），从这个起始配置重新训练网络。在训练最多相同次数的迭代后，它可以与原始网络的测试精度相匹配。
论文地址： https://openreview.net/pdf?id=rJl-b3RcF7
相关解读： https://zhuanlan.zhihu.com/p/675189739 和 https://www.bilibili.com/read/cv2806397/

A REVIEW OF SPARSE EXPERT MODELS IN DEEP LEARNING （来自Jeff Dean的综述）

推荐理由：尽管彩票假说给业界提供了想象力，但是选择哪些参数裁掉仍是业界一个需要探索的问题。MoE结构提供了一种方案，例如Mixtral 8✖️7B就是一种典型的MoE结构（https://zhuanlan.zhihu.com/p/673527090）。Jeff De

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。