浮点数规范（IEEE754）

最新推荐文章于 2024-01-03 14:12:36 发布

Yemiekai

最新推荐文章于 2024-01-03 14:12:36 发布

阅读量2.2k

点赞数

分类专栏：计算机基础

计算机基础专栏收录该内容

2 篇文章

订阅专栏

本文深入探讨IEEE浮点数标准，讲解浮点数的表示形式、转换过程及编码细节，涵盖不同精度等级和二进制、十进制转换格式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文主要参考《IEEE Standard for Floating-Point Arithmetic》

看多几次就懂了，主要看它的表示形式和转换公式。

1. Floating-point formats

浮点数格式

1.1 Specification levels

规范等级

浮点算术是对于实际算术的系统近似，如表1.1所示。浮点算术只能表示连续实数的一个有限子集。因此对于实数的某些属性（例如加法结合律（associativity of addition）），并不总是适用于浮点算术。

表1.1 规范化等级及其格式


Level 1	$\{-\infty \; \ldots \; 0 \; \ldots\; +\infty\}$	扩展实数
多对一 ↓↓	舍入 ↓↓	↑↑ 映射（除了NaN）
Level 2	$\{-\infty \ldots -0 \}\; \bigcup \; \{+0 \ldots +\infty \} \; \bigcup$ NaN	浮点数据 - - 代数封闭的系统
一对多 ↓↓	规范化表示 ↓↓	↑↑ 多对一
Level 3	$\; \bigcup \; \{-\infty,+\infty \} \; \bigcup$ qNaN $\bigcup$ sNaN	浮点数据的表示
一对多 ↓↓	浮点数据的编码表示↓↓	↑↑ 多对一
Level 4	$0111000\ldots$	比特字符串（Bit strings）

在该标准中，支持算术的数据格式是扩展实数，即实数集以及正负无穷（ $\{-\infty \ldots 0 \ldots+\infty\}$ ）。对于给定的格式，舍入过程（见后面第?节）将扩展的实数映射到该格式中的浮点数。浮点数据可以是带符号的零，有限的非零数字，带符号的无穷大或NaN，可以以一种格式映射到一个或多个浮点数据表示形式。

浮点数据的表示格式（就是Level 3）包括以下3大部分：

三元组 $(s i g n, e x p o n e n t, s i g n i f i c a n d)$ ；对于基数 $b$ ，用三元组表示的浮点数就是 $\LARGE (-1)^{sign} {\times} b^{exponent}{\times}significand$
$-\infty,+\infty$
qNaN（quiet，不抛异常），sNaN（signaling，抛异常）

“浮点数的编码”将浮点数据的表示映射为比特字符串。“编码”可能会将一些浮点数据映射到多个比特字符串。应该使用多个NaN比特字符串来存储回顾性诊断信息（见后面第?节）。

1.2 Sets of floating-point data

浮点数据集

有限的浮点数集合可以用特定的格式表示，由以下整数参数决定:

$\Large b$ ：基数，2或者10。
$\Large p$ ： $s i g n i f i c a n d$ （有效位）中数字的个数。（precision精度）
$\Large emax$ ：最大指数 $e$
$\Large emin$ ：最小指数 $e$ ，对于所有格式， $e m i n$ 应为 $1 - e m a x$

对于每种基础格式，以上参数的值都在表1.2中给出了。

表1.2

	二进制格式（b=2）			十进制格式（b=10）
参数	二进制32位	二进制64位	二进制128位	十进制64位	十进制128位
p	24	53	113	16	34
emax	+127	+1023	+16383	+384	+6144

浮点数据表示形式：

============================（1）============================

有符号和非零的浮点数格式为 $\LARGE (-1)^{s} \times b^e \times m$ ，其中
$s$ 是0或者1
$e$ 是任意整数， $\leqslant e \leqslant emax$
$m$ 是一个数字（小数），用一个比特字符串表示，该字符串格式如下：
$d_0. d_1d_2...d_{p-1}$ ，其中 $d_i$ 是一个整数数字满足 $\leqslant d_i <b$ （因此 $\leqslant m <b$ ）

两个无限值， $+\infty$ 和 $-\infty$
两个 NaNs，qNaN和sNaN

在上述描述中，符号 $m$ 被视为一种科学形式，小数点紧接在第一个数字之后。

============================（2）============================
为了某些目的，把 $s i g n i f i c a n d$ 看作一个整数也很方便，当 $m$ 为整数时(各种进制的整数)：

有符号和非零的浮点数格式为 $\LARGE(-1)^{s} \times b^q \times c$ ，其中
$s$ 是0或者1
$q$ 是任意整数， $\leqslant q+p-1 \leqslant emax$
$c$ 是一个数字，用一个比特字符串表示，该字符串格式如下：
$d_0d_1d_2...d_{p-1}$ ，其中 $d_i$ 是一个整数数字满足 $\leqslant d_i <b$ （因此 $c$ 是一个整数， $\leqslant c <b^p$ ）

这种描述把 $s i g n i f i c a n d$ 当做一个整数 $c$ ，对应的 $e x p o n e n t$ 为 $q$ 。（对于有限浮点数， $e = q + p - 1$ ， $m=c\times b^{1-p}$ ）

最小的正normal（正规数）浮点数是 $b^{emin}$ ，最大的是 $b^{emax}\times (b-b^{1-p})$ 。对于这种格式化的非零浮点数，量级小于 $b^{emin}$ 的被称为subnormal（次正规数），因为它的量级在零和最小正规数的量级之间。他们的有效位数（ $s i g n i f i c a n d$ digits）通常比 $p$ 要少。每一个有限浮点数字都是最小次正规数的整数倍 $b^{emin}\times b^{1-p}$ 。

对于值为0的浮点数，符号位 $s$ 提供了额外的信息位。尽管所有格式对 $+ 0$ 和 $- 0$ 都有不同的表示，但 $0$ 的符号在某些情况下很重要，比如 $0$ 除以xxx，但在其他情况下则不重要(后面再讲)。二进制转换格式对于 $+ 0$ 和 $- 0$ 只有一种表示，但是十进制格式有很多。在此标准中，当符号不重要时， $0$ 和 $\infty$ 不带符号。

1.3 Binary interchange format encodings

浮点数据的“二进制转换格式”编码

每个浮点数只有一种二进制交换格式的编码。为了使编码具有唯一性，对于1.2中的参数，通过减小 $e$ 使有效位（significand） $m$ 的值最大化，直到 $e = e m i n$ 或 $m\geqslant1$ 。这个过程完成后，如果 $e = e m i n$ 且 $0 < m < 1$ ，则浮点数为次正规数（subnormal）。次正规数（以及零）用一个表留的偏置指数值来编码。（Subnormal numbers (and zero) are encoded with a reserved biased exponent value）

浮点数的二进制形式由 $k$ 个比特的编码表示，主要有3个部分：

1个比特，符号位S
w个比特，偏置的指数（biased exponent）， $E = e + b i a s$
（t=p-1）个比特，尾部有效位（trailing significand field）数字字符串 $T=d_1d_2...d_{p-1}$ ；

在这里插入图片描述

图1.1 浮点数的编码

二进制转换格式的 $\; p,\; t,\; w,\; bias$ 的值如表1.3所示

表1.3 二进制交换格式的参数

参数	二进制16位	二进制32位	二进制64位	二进制128位	二进制 $k$ 位 $(k\geqslant128)$
$k$ ，数据宽度	16	32	64	128	32的倍数
$p$ ，精度	11	24	53	113	$k-round(4\times log_2(k))+13$
$e m a x$ ，指数 $e$ 的最大值	15	127	1023	16383	$2^{(k-p-1)}-1$
–	–	–	–	–	–
$b i a s$ ， $E - e$	15	127	1023	16383	$e m a x$
符号位	1	1	1	1	1
$w$ ，指数位的宽度	5	8	11	15	$round(4\times log_2(k))-13$
$t$ ，尾部有效位的宽度	10	23	52	112	$k - w - 1$
$k$ ，数据宽度	16	32	64	128	$1 + w + t$

这里 $r o u n d$ 表示四舍五入

指数项 $E$ 具有关键作用(决定了浮点数的性质，以及计算公式)
性质：
（1）当 $E\in [1,2^w-2]$ 时，用于编码规范数（normal numbers）
（2）当 $E = 0$ 时，用于编码 $\pm0$ 和次规范数（subnormal numbers）
（3）当 $E = 2^w-1$ 时，用于编码 $\pm\infty$ 和 NaNs

计算公式：
（ $r$ 是浮点数据的表示形式， $v$ 是浮点数据代表的值）：

（a） 如果 $E=2^w-1$ ，并且 $T\neq0$
则 $r$ 就是 qNaN 或者 sNaN， $v$ 就是 NaN（无论符号位）

（b） 如果 $E=2^w-1$ ，并且 $T = 0$
则 $r$ 和 $v$ 都是 $\large(-1)^S\times(+\infty)$

（c） 如果 $1\leqslant E \leqslant2^w-2$ （这种情况居多）
则 $r$ 就是 $\large(S, (E-bias),(1+2^{1-p}\times T))$ ， $\large v=(-1)^S\times 2^{E-bias}\times(1+2^{1-p}\times T)$

（d） 如果 $E = 0$ ，并且 $T\neq0$
则 $r$ 就是 $\large(S, emin,(0+2^{1-p}\times T))$ ， $\large v=(-1)^S\times 2^{emin}\times(0+2^{1-p}\times T)$

（e） 如果 $E = 0$ ，并且 $T = 0$
则 $r$ 就是 $\large(S,emin,0)$ ， $\large v=(-1)^S\times (+0)$

注意， 当 $k$ 是64或以上（32的倍数）时，各参数满足下列公式：
$k=1+w+t=w+p=32\times ceiling((p+round(4\times log_2(p+round(4\times log_2(p))-13))-13)/32)$
$w=k-t-1=k-p=round(4\times log_2(k))-13$
$t=k-w-1=p-1=k-round(4\times log_2(k))+12$
$p=k-w=t+1=k-round(4\times log_2(k))+13$
$emax=bias=2^{(w-1)}-1$
$emin=1-emax=2-2^{(w-1)}$

1.4 Decimal interchange format encodings

十进制转换格式编码

有空再说

1.5 Extended and extendable precisions

扩展的和可扩展的精度

有空再说

2. 举个例子

有几个格式转换的网站可以参考
(1): https://www.h-schmidt.net/FloatConverter/IEEE754.html
(2): http://www.styb.cn/cms/ieee_754.php
(3): http://weitz.de/ieee/

2.1 编码的浮点数转十进制小数

假设内存中存了一个32位浮点数，十六进制：0x40680000，二进制：01000000011010000000000000000000
图示如下：

在这里插入图片描述
根据上面的表1.3可得32位二进制浮点数的参数：
$p = 24$ ， $b i a s = 127$ ， $w = 8$ ， $t = 23$

这里 $E$ 是二进制的10000000，即十进制的128，满足 $1\leqslant E \leqslant2^w-2$ ，可以套公式(c)： $\large v=(-1)^S\times 2^{E-bias}\times(1+2^{1-p}\times T)$

即 $\large v=(-1)^0\times 2^{128-127}\times(1+2^{1-24}\times 11010000000000000000000)$

由于这里是二进制，乘以 $2^n$ 就是小数点向右移动 $n$ 个位，若 $n$ 是负数则向左移动 $n$ 个位。

于是 $\large v=1 \times 2 \times(1+0.101)=1 \times 2 \times(1.1101)=11.101$

再转为十进制： $\large v=1\cdot2^1+1\cdot2^0+1\cdot2^{-1}+0\cdot2^{-2}+1\cdot2^{-3}=3.625$

结果是3.625

2.2 十进制小数转为二进制浮点数编码

现在有一个十进制的小数13.78125 ，要转成32位的二进制浮点数编码。
先看整数部分：

$13\div 2 = 6$ 余 1
$6\div 2 = 3$ 余 0
$3\div 2 = 1$ 余 1
$1\div 2 = 0$ 余 1

因此整数部分二进制为1101

再看小数部分：
$0.78125 \times 2 = 1.5625$ ，整数部分1
$0.5625 \times 2 = 1.125$ ，整数部分1
$0.125 \times 2 = 0.25$ ，整数部分0
$0.25 \times 2 = 0.5$ ，整数部分0
$0.5 \times 2 = 1$ ，整数部分1