浮点数及其国际标准

最新推荐文章于 2024-11-21 16:48:25 发布

原创最新推荐文章于 2024-11-21 16:48:25 发布 · 4.4k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#存储 #英特尔 #语言 #float #作业 #编程

综合专栏收录该内容

4 篇文章

订阅专栏

浮点数（float）又称作浮点数，是属于有理数中某特定子集的数的数字表示，在计算机中用以近似表示任意某个实数。具体来说，这个实数由一个整数或定点数（即尾数）乘以某个基数（计算机中通常是2）的整数次幂得到，这种表示方法类似于基数为10的科学记数法。

浮点计算是指浮点数参与的运算，这种运算通常伴随着因为无法精确表示而进行的近似或舍入。

一个浮点数a由两个数m和e来表示：a = m × b^e。在任意一个这样的系统中，我们选择一个基数b（记数系统的基）和精度p（即使用多少位来存储）。m（即尾数）是形如±d.ddd...ddd的p位数（每一位是一个介于0到b-1之间的整数，包括0和b-1）。如果m的第一位是非0整数，m称作正规化的。有一些描述使用一个单独的符号位（s 代表+或者-）来表示正负，这样m必须是正的。e是指数。

这种设计可以在某个固定长度的存储空间内表示定点数,但无法表示的更大范围的数。

例如，一个指数范围为±4的4位十进制浮点数可以用来表示43210，4.321或0.0004321，但是没有足够的精度来表示432.123和43212.3（必须近似为432.1和43210）。当然，实际使用的位数通常远大于4。

此外，浮点数表示法通常还包括一些特别的数值：+∞和?6?1∞（正负无穷大）以及NaN（'Not a Number'）。无穷大用于数太大而无法表示的时候，NaN则指示非法操作或者无法定义的结果。

计算机中的浮点数

大部份计算机采用二进制（b=2）的表示方法。位(bit)是衡量浮点数所需存储空间的单位，通常为32位或64位，分别被叫作单精度和双精度。有一些计算机提供更大的浮点数，例如英特尔公司的浮点运算单元Intel8087协处理器（以及其被集成进x86处理器中的后代产品）提供80位长的浮点数，用于存储浮点运算的中间结果。还有一些系统提供128位的浮点数（通常用软件实现）。

浮点数的标准

在计算机使用的浮点数被电气电子工程师协会（IEEE）规范化为IEEE 754。

IEEE 754

IEEE二进制浮点数算术标准（IEEE 754）是1980年代以来最广泛使用的浮点数运算标准，为许多CPU与浮点运算器所采用。这个标准定义了表示浮点数的格式（包括负零-0）与反常值（denormal number）），一些特殊数值（无穷与非数值（NaN）），以及这些数值的“浮点数运算符”；它也指明了四种数值舍入规则和五种例外状况（包括例外发生的时机与处理方式）。

IEEE 754规定了四种表示浮点数值的方式：单精确度（32位元）、双精确度（64位元）、延伸单精确度（43位元以上，很少使用）与延伸双精确度（79位元以上，通常以80位元实做）。只有32位元模式有强制要求，其他都是选择性的。大部分编程语言都有提供IEEE浮点数格式与算术，但有些将其列为非必需的。例如，IEEE 754问世之前就有的C语言，现在有包括IEEE算术，但不算作强制要求（C语言的float通常是指IEEE单精确度，而double是指双精确度）。

该标准的全称为IEEE二进制浮点数算术标准（ANSI/IEEE Std 754-1985），又称IEC 60559:1989，微处理器系统的二进制浮点数算术（本来的编号是IEC 559:1989）^[1]。后来还有“与基数无关的浮点数”的“IEEE 854-1987标准”，有规定基数为2跟10的状况。现在最新标准是“IEEE 854-2008标准”。

在六、七十年代，各家计算机公司的各个型号的计算机，有着千差万别的浮点数表示，却没有一个业界通用的标准。这给数据交换、计算机协同工作造成了极大不便。IEEE的浮点数专业小组于七十年代末期开始酝酿浮点数的标准。在1980年，英特尔公司就推出了单片的8087浮点数协处理器，其浮点数表示法及定义的运算具有足够的合理性、先进性，被IEEE采用作为浮点数的标准，于1985年发布。而在此前，这一标准的内容已在八十年代初期被各计算机公司广泛采用，成了事实上的业界工业标准。

特殊值

这里有三个特殊值需要指出：

如果指数是0 并且 小数部分 是0，这个数±0（和符号位相关）
如果指数 = $2 e ?6?1 1$ 并且 小数部分 是0，这个数是 ±无穷大（同样和符号位相关）
如果指数 = $2 e ?6?1 1$ 并且 小数部分 非0，这个数表示为不是一个数（NaN）。

以上规则，总结如下：

形式	指数	小数部分
零	0	0
非规约形式	0	非0
规约形式	$1$ 到 $2 e ?6?1 2$	任意
无穷	$2 e ?6?1 1$	0
NaN	$2 e ?6?1 1$	非零

[编辑]32位单精度

单精度二进制小数，使用32个位元存储。

1	8	23　位长
S	Exp	Fraction
31	30至23 偏正值（实际的指数大小+127）	22至0　位编号（从右边开始为0）

S为符号位，Exp为指数位，Fraction为有效数位。指数部分即使用所谓的偏正值形式表示，偏正值为实际的指数大小与一个固定值（32位的情况是127）的和。采用这种方式表示的目的是简化比较。因为，指数的值可能为正也可能为负，如果采用补码表示的话，全体符号位S和Exp自身的符号位将导致不能简单的进行大小比较。正因为如此，指数部分通常采用一个无符号的正数值存储。单精度的指数部分是?6?1126～+127加上偏移值127 ，指数值的大小从1～254（0和255是特殊值）。浮点小数计算时，指数值减去偏正值将是实际的指数大小。

单精度浮点数各种极值情况：

类别	正负号	实际指数	有偏移指数	指数域	尾数域	数值
零	0	-127	0	0000 0000	000 0000 0000 0000 0000 0000	0.0
负零	1	-127	0	0000 0000	000 0000 0000 0000 0000 0000	?6?10.0
1	0	0	127	0111 1111	000 0000 0000 0000 0000 0000	1.0
-1	1	0	127	0111 1111	000 0000 0000 0000 0000 0000	?6?11.0
最小的非规约数	*	-127	0	0000 0000	000 0000 0000 0000 0000 0001	±2^?6?123 × 2^?6?1126 = ±2^?6?1149 ≈ ±1.4×10^-45
中间大小的非规约数	*	-127	0	0000 0000	100 0000 0000 0000 0000 0000	±2^?6?11 × 2^?6?1126 = ±2^?6?1127 ≈ ±5.88×10^-39
最大的非规约数	*	-127	0	0000 0000	111 1111 1111 1111 1111 1111	±(1?6?12^?6?123) × 2^?6?1126 ≈ ±1.18×10^-38
最小的规约数	*	-126	1	0000 0001	000 0000 0000 0000 0000 0000	±2^?6?1126 ≈ ±1.18×10^-38
最大的规约数	*	127	254	1111 1110	111 1111 1111 1111 1111 1111	±(2?6?12^?6?123) × 2¹²⁷ ≈ ±3.4×10³⁸
正无穷	0	128	255	1111 1111	000 0000 0000 0000 0000 0000	+∞
负无穷	1	128	255	1111 1111	000 0000 0000 0000 0000 0000	?6?1∞
NaN	*	128	255	1111 1111	non zero	NaN
* 符号位可以为0或1 .

[编辑]64位双精度

双精度二进制小数，使用64个位元存储。

1	11	52　位长
S	Exp	Fraction
63	62至52 偏正值（实际的指数大小+1023）	51至0　位编号（从右边开始为0）

S 为符号位，Exp为指数位，Fraction为有效数位。指数部分即使用所谓的偏正值形式表示，偏正值为实际的指数大小与一个固定值（64位的情况是1023）的和。采用这种方式表示的目的是简化比较。因为，指数的值可能为正也可能为负，如果采用补码表示的话，全体符号位S和Exp自身的符号位将导致不能简单的进行大小比较。正因为如此，指数部分通常采用一个无符号的正数值存储。双精度的指数部分是?6?11022～+1023加上1023 ，指数值的大小从1～2046（0(2进位全为0)和2047(2进位全为1)是特殊值）。浮点小数计算时，指数值减去偏正值将是实际的指数大小。