any-precision-LLM：高效部署多种大小语言模型的解决方案-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00643/article/details/146519976

any-precision-LLM：高效部署多种大小语言模型的解决方案

any-precision-llm [ICML 2024 Oral] Any-Precision LLM: Low-Cost Deployment of Multiple, Different-Sized LLMs 项目地址: https://gitcode.com/gh_mirrors/an/any-precision-llm

项目介绍

any-precision-LLM 是一种内存高效且成本效益高的解决方案，用于部署多种不同大小的语言模型（LLM）。该方案通过将不同位宽（如3、4、...、n位）量化的语言模型叠加到一个与单个n位LLM相当的内存占用中，显著降低了部署多个不同大小LLM的内存成本。项目包括一种轻量级的LLM量化技术——增量上采样（incremental upscaling），以及一个专门的软件引擎，用于高效的服务，配备了支持位平面权重表示的自定义CUDA核心。

项目技术分析

any-precision-LLM 的核心在于其独特的量化方法，该方法允许模型在部署时动态调整其精度，从而在不同场景下实现最佳的性能和资源利用。以下是项目的主要技术组成：

增量上采样：这是一种量化技术，它首先将模型量化到种子精度，然后逐步上采样到父精度。这种方法使得模型可以在不同的精度级别上进行部署，而无需重新训练。
自定义CUDA核心：为了实现高效的模型服务，项目包含了一个专门设计的软件引擎，它使用自定义的CUDA核心来处理位平面权重表示，从而提高计算效率。
内存优化：通过叠加不同精度的模型到一个单一的内存占用中，any-precision-LLM显著减少了内存成本，使得可以在资源受限的环境中部署大型语言模型。