论文阅读（第四部分）：Full Stack Optimization of Transformer Inference: a Survey

PEAKKIZZA

已于 2024-01-30 16:39:13 修改

阅读量993

点赞数 23

分类专栏：大模型文章标签：论文阅读 transformer 深度学习

于 2024-01-30 14:16:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/peakkizza/article/details/135931986

版权

论文阅读（第四部分）：Full Stack Optimization of Transformer Inference: a Survey

原文链接：https://arxiv.org/pdf/2302.14017.pdf

3 模型优化

3.1 量化

high-precision arithmetic is often unnecessary for inference

量化是一种压缩DNN模型的过程，通过用较低比特位，典型的(但并不必然)定点表示，如8比特整数( INT8 )，而不是32比特或16比特浮点数( FP32或FP16)来表示参数和/或激活
One obvious advantage of reduced precision is the reduction in memory consumption.
- For example, quantizing model weights from FP32 to INT8 leads to a 4× smaller model size
- 减少片外存储和带宽
- 量化激活进一步允许减少内存流量和中间部分结果的存储。
A second advantage of quantizing model weights and activations is the reduced size, latency, and energy consumption of the ALUs and the corresponding PEs
- 一般来说，浮点ALU在面积、延迟和能耗方面的效率往往低于整数ALU
- 这是因为浮点PE在执行一次乘法操作时，需要乘尾数，加指数，并使用指数进行左移得到最终结果,而定点PE只需要一个乘法单元
- modern GPUs and TPUs often contain INT8 processing paths
- 量化的另一个关键应用是在纯整数硬件上部署模型
  - 一些面向低成本、低功耗嵌入式设备的边缘处理器，如ARM Cortex - M内核and GAP-8
    - 在这些处理器上部署模型时，不仅需要对模型的权重和激活值进行量化，而且所有的计算都必须使用整数运算
    - 否则，部署是不可能的，或者由于需要在片外处理非整数操作而导致相当大的开销。这将导致额外的延迟和数据传输到通用主机处理器的能量消耗
    - integer-only quantization reduces the end-to-end inference latency by 39.6× on Gemmini.
- 量化方法大致可以分为均匀量化和非均匀量化，这取决于它们如何映射值。均匀量化将浮点域分割成均匀间隔的区间，并将每个区间映射为单一的固定点值。这可以从一个简单的算术规则中得到：

最低0.47元/天解锁文章

博客等级

码龄6年

17
原创

269
点赞

234
收藏

166
粉丝

关注

私信

热门文章

分类专栏

并行 1篇
大模型 7篇
GPU 1篇
数据压缩 1篇

展开全部收起

最新评论

【论文阅读】DSP: Dynamic Sequence Parallelism for Multi-Dimensional Transformers
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】S3: Increasing GPU Utilization during Generative Inference for Higher Throughput
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：Benchmarking and Dissecting the Nvidia Hopper GPU Architecture
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读：cuSZp: AnUltra-fastGPUError-boundedLossyCompressionFrameworkwithOptimized End-to-End Peformance
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文阅读（第四部分）：Full Stack Optimization of Transformer Inference: a Survey
优快云-Ada助手: 你好，优快云开始提供 #论文阅读# 的列表服务了。请看：https://blog.youkuaiyun.com/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。