
Model Compression
张博208
知识搬运工
展开
-
Knowledge Distillation
https://blog.youkuaiyun.com/nature553863/article/details/80568658转载 2020-09-28 12:06:10 · 164 阅读 · 0 评论 -
深度学习模型量化(低精度推理)大总结
https://blog.youkuaiyun.com/zlgahu/article/details/104662203/原创 2020-07-09 11:33:59 · 1079 阅读 · 0 评论 -
Pytorch 1.3.0 量化介绍
https://blog.youkuaiyun.com/zym19941119/article/details/102523719/量化介绍量化指的是使用比浮点精度更少的比特数来进行yi计算和存储的技术。一个量化后的模型使用整数tensor而不是浮点数tensor来执行一部分或全部的操作。这是一种更紧凑的模型表现方式,并且可以利用许多硬件平台上的高性能向量操作。PyTorch支持INT8的量化,相比于FP32,模型大小减少了4x,对内存带宽的需求也减少了4x。INT8操作的硬件支持使得其计算通常要比FP32.转载 2020-07-09 11:10:53 · 800 阅读 · 0 评论 -
模型压缩总览
深度学习使得很多计算机视觉任务的性能达到了一个前所未有的高度。不过,复杂的模型固然具有更好的性能,但是高额的存储空间、计算资源消耗是使其难以有效的应用在各硬件平台上的重要原因。为了解决这些问题,许多业界学者研究模型压缩方法以最大限度的减小模型对于计算空间和时间的消耗。最近团队里正在研究模型压缩相关的内容,正好在这里总结一下。(我的认识还很肤浅,本文也会不断补充和修改,欢迎拍砖)理论基础...转载 2020-04-19 11:02:37 · 997 阅读 · 0 评论