浮点数的存储

原创已于 2023-12-02 17:20:17 修改 · 4.6k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#java #c语言 #测试工具

于 2021-11-30 20:48:44 首次发布

嵌入式开发专栏收录该内容

4 篇文章

订阅专栏

本文详细解析了单精度(float)与双精度(double)的区别，包括存储位数、有效数字和指数的规定。介绍了如何将十进制转换为二进制浮点数，并依据IEEE754标准讨论了有效数字M和指数E的编码规则。通过实例演示了浮点数9.0的二进制表示及其还原过程。

文章目录

1.单精度与双精度区别

1.单精度和双精度精确的范围不一样:

单精度，也即float，一般在计算机中存储占用4字节，也32位，有效位数为7位；
双精度（double）在计算机中存储占用8字节，64位，有效位数为16位

2.在计算机上的存储都遵循IEEE规范，使用二进制科学计数法:

在这里插入图片描述

IEEE 754规定，对于32位的浮点数，最高的1位是符号位s，接着的8位是指数E，剩下的23位为有效数字M
在这里插入图片描述

3.精确度:

精度主要取决于尾数部分的位数，float为23位，除去全部为0的情况以外，最小为2的-23次方，约等于1.19乘以10的-7次方，所以float小数部分只能精确到后面6位，加上小数点前的一位，即有效数字为7位。类似，double 尾数部分52位，最小为2的-52次方，约为2.22乘以10的-16次方，所以精确到小数点后15位，有效位数为16位

2.将十进制浮点数转换为二进制浮点数

快速将十进制转为二进制:

找小于并邻近这个数的 $2^N$ , 整数时N为正，小数时N为负数，并依次获取。

将178.125转为二进制:

178 = 128 + 32 + 16 + 2 = $2^7$ + $2^4$ + $2^4$ + $2^1$ = 10110010
0.125 = $\frac{1}{8}$ = $2^{-3}$ = 0.001
178.125 = 10110010.001

二进制浮点移位:

10110010.001 = 1.0110010001 * $2^7$ ;

在内存中的存储形式:

3.IEEE 754 对有效数字M和指数E的规定

对有效数字 M 的规定:

前面说过，1≤M<2，也就是说，M可以写成1.xxxxxx的形式，其中xxxxxx表示小数部分。
IEEE 754规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的xxxxxx部分。
比如保存1.01的时候，只保存01，等到读取的时候，再把第一位的1加上去。这样做的目的，是节省1位有效数字。以32位浮点数为例，留给M只有23位，将第一位的1舍去以后，等于可以保存24位有效数字

对指数 E 的规定:

1.E为一个无符号整数（unsigned int）。这意味着，如果E为8位，它的取值范围为0_{255；如果E为11位，它的取值范围为0}2047
2.科学计数法中的E是可以出现负数的，所以IEEE 754规定，E的真实值必须再减去一个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023

比如，2^10的E是10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001。

指数E还可以再分成三种情况:

（1）E不全为0或不全为1。这时，浮点数就采用上面的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将有效数字M前加上第一位的1。

（2）E全为0。这时，浮点数的指数E等于1-127（或者1-1023），有效数字M不再加上第一位的1，而是还原为0.xxxxxx的小数。这样做是为了表示±0，以及接近于0的很小的数字。

（3）E全为1。这时，如果有效数字M全为0，表示±无穷大（正负取决于符号位s）；如果有效数字M不全为0，表示这个数不是一个数（NaN）

4.实验

请问浮点数9.0，如何用二进制表示？还原成十进制又是多少？

首先，浮点数9.0等于二进制的1001.0，即1.001×2^3。
那么，第一位的符号位s=0，有效数字M等于001后面再加20个0，凑满23位，指数E等于3+127=130，即10000010。
所以，写成二进制形式，应该是s+E+M，即0 10000010 001 0000 0000 0000 0000 0000。这个32位的二进制数，还原成十进制，正是1091567616。

#include <stdio.h>

int main(void){
    int num=9; /* num是整型变量，设为9 */
    float* pFloat=(float*)&num; /* pFloat表示num的内存地址，但是设为浮点数 */
    printf("num的值为：%d\n",num); /* 显示num的整型值 */
    printf("*pFloat的值为：%f\n",*pFloat); /* 显示num的浮点值 */
    *pFloat=9.0; /* 将num的值改为浮点数 */
    printf("num的值为：%d\n",num); /* 显示num的整型值 */
    printf("*pFloat的值为：%f\n",*pFloat); /* 显示num的浮点值 */

    return 0;
}

output:

num的值为：9
*pFloat的值为：0.000000
num的值为：1091567616
*pFloat的值为：9.000000

>>> bin(1091567616)  # python3
'0b1000001000100000000000000000000'

参考资料

IEEE-754 Floating Point Converter
浮点数的二进制表示
 同样是占32个坑，凭啥你float就比int的范围更大？
编辑器对于内存的使用——数据的保存与访问使用（浮点数篇