ONNX项目中的4位浮点数(Float4)格式详解-优快云博客

ONNX项目中的4位浮点数(Float4)格式详解

在深度学习模型规模不断扩大的背景下，模型部署和计算成本成为重要挑战。ONNX项目从1.18.0版本开始引入了一种新型的4位浮点数格式(Float4)，旨在为大型语言模型等应用提供更高效的数据存储和计算方案。本文将深入解析这种特殊的数据格式。

4位浮点格式最初由开放计算项目(OCP)提出，作为解决大型模型部署难题的创新方案。ONNX项目采纳了这一标准，实现了对4位浮点数的支持，主要包含以下类型：

E2M1格式采用1-2-1的位分配方式：

根据指数位的不同，数值计算分为两种情况：

指数位非零时：

数值 = (-1)^S × 2^(E-1) × (1 + M×2^-1)

下表展示了E2M1格式能表示的所有正数值(负值只需加上符号位)：

从表中可以看出，E2M1格式能表示的数值范围是[-6, 6]，精度从0.5到1不等。

将Float4转换为更高精度的浮点格式(如float32、float16等)时，转换是精确的，不会丢失信息。

将高精度浮点数转换为Float4时，遵循以下规则：

由于单个Float4仅占用4位，ONNX采用特殊的打包存储方式：

打包规则：
- 每两个4位元素打包成一个字节
- 第一个元素存储在低4位(LSB)
- 第二个元素存储在高4位(MSB)
- 打包公式：y << 4 | x & 0x0F
解包规则：
- 第一个元素：z & 0x0F
- 第二个元素：z >> 4
特殊情况处理：
- 当元素总数为奇数时，会追加4位填充
- 存储空间计算：对于N个元素的张量，需要ceil(N/2)字节

Float4格式主要应用于：

但需要注意以下限制：

ONNX引入的Float4格式为深度学习模型的轻量化部署提供了新的可能性。虽然其数值表示能力有限，但在特定场景下可以显著减少内存占用和带宽需求。开发者在使用时应当充分了解其特性和限制，合理评估是否适合自身应用场景。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考