人工智能_大模型006_CPU微调ChatGLM大模型_Prefix-Tuning微调原理_Prompt-Tuning/P-tuning微调原理_微调_001---人工智能工作笔记0141

本文为博主原创文章，未经博主添柴程序猿允许不得转载违者追究法律责任。

本文链接：https://blog.youkuaiyun.com/lidew521/article/details/136231836

本文介绍了人工智能领域的模型量化技术，包括FP32、FP16、INT8和INT4等精度等级。接着讨论了全量微调和高效微调的概念，重点解析了Prefix-Tuning和Prompt-Tuning两种微调方法的原理，以及P-Tuning对Prompt-Tuning的优化。最后提到了模型规模增大时，如ChatGLM-6B，微调策略的挑战及改进方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先来理解一下什么是量化模型,因为我们用的都是量化模型,而且,目前用的是INT4版本最新的

量化模型,这个占用资源最少.

在人工智能和机器学习领域，模型量化是指将模型中的权重和/或激活从浮点数（通常是32位浮点数，即FP32）转换为低精度表示（如16位浮点数，即FP16，或8位整数，即INT8）的过程。量化可以显著减少模型的大小，降低内存使用，提高推理速度，同时尽量减少准确性的损失。
量化等级通常指的是量化过程中可以采用的不同的精度级别。例如：
- **FP32（全精度）**：标准的32位浮点表示，提供最高的精度。
- **FP16（半精度）**：16位浮点表示，精度较低，但速度更快，文件大小更小。
- **INT8（8位整数）**：8位整数表示，精度进一步降低，但速度和文件大小的优势更加明显。
- **INT4（4位整数）**：4位整数表示，精度最低，但速度和文件大小的优化最为显著。
量化过程通常涉及以下步骤：
1. **选择量化等级**：根据应用的需求和硬件的支持，选择合适的量化等级。
2. **校准**：使用一组代表性的数据来调整量化参数，以确保量化后的模型性能。
3. **量化权重和/或激活**：将模型的权重和/或激活从高精度浮点数转换为所选的低精度表示。
4. **微调**：在量化后，可能需要对模型进行微调，以恢复一些由于量化而损失的准确性。
量化是部署大型模型到资源受限环境中的一个重要技术，如移动设备或边缘计算设备。然而，量化也可能导致性能下降，因此在应用量化技术时需要仔细权衡精度和效率。

再来看一下什么是全