大模型学习笔记1-模型压缩_大模型压缩方法-优快云博客

本文链接：https://blog.youkuaiyun.com/finly4599/article/details/141407711

模型压缩 是指通过减少模型的参数数量和计算复杂度，来缩减模型的大小和提高推理速度，同时尽量保持模型性能不显著下降。模型压缩技术特别重要，因为它允许复杂的深度学习模型在资源受限的环境中运行，如移动设备、嵌入式系统或低带宽的网络环境中。

模型压缩的常用方法

剪枝（Pruning）:
- 权重剪枝：去除网络中不重要的权重，通常是那些接近于零的权重。这可以减少模型的参数量和计算复杂度。
- 结构化剪枝：去除整个卷积核或神经元，减少计算开销的同时保留模型的结构完整性。
量化（Quantization）:
- 将模型的浮点数权重和激活值转换为较低精度的表示（如 8 位整数），以减少内存使用和加速推理。
- 动态量化：在推理时动态调整数值的精度。
- 静态量化：在训练后量化所有参数。
知识蒸馏（Knowledge Distillation）:
- 将一个大型的“教师模型”训练出的知识迁移到一个较小的“学生模型”中，学生模型通过学习教师模型的输出（即软标签）来逼近教师模型的性能。
权重共享（Weight Sharing）:
- 减少模型中可训练参数的数量，将多个层或多个通道的权重共享，从而降低模型的复杂度。
低秩分解（Low-rank Decomposition）:
- 将权重矩阵分解成几个低秩矩阵的乘积，以减少存储需求和计算复杂度。常见的方法有 SVD（奇异值分解）。
神经架构搜索（Neural Architecture Search, NAS）:
- 自动化搜索和优化网络架构，使得模型在给定的资源限制下达到最优性能。这种方法可以结合其他压缩方法，找到更适合压缩的网络结构。
模型蒸馏：
- 类似知识蒸馏，通过训练一个更小的模型来模仿大模型的行为，从而得到一个更小、更快的模型。