浮点数的存储方式

最新推荐文章于 2025-08-23 00:15:00 发布

原创最新推荐文章于 2025-08-23 00:15:00 发布 · 1.9k 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#内存 #基本数据类型 #浮点数

计算机专栏收录该内容

0 篇文章

订阅专栏

一起来研究一下浮点数在内存中是怎样表示的吼不吼哇~

浮点数的分类

大多数语言中将浮点数分为两大类，32bit和64bit，又叫做float单精度浮点数和double双精度浮点数。相对来说，double类型的数据要比float类型的数据可以表示的精度更高，数据范围更广。

IEEE（电气电子工程师学会，Institute of Electrical and Electronics Engineers）规定：

32位的浮点数，最高的1位是符号位，接着的8位是指数E，剩下的23位为有效数字
64位的浮点数，最高的1位是符号位，接着的11位是指数E，剩下的52位为有效数字

选择切合实际的浮点数类型

可以看出，64位浮点数的指数比32位浮点数多出了三位，表现在数值上则整整多出来(2^11 - 2^8) = 1792位，即二进制里的近一千八百个数量级。用来表示有效数字的位数也翻番了，可以参考int 和 long类型，真的是鸟枪换炮。而它们占用的内存仅仅差了两倍。

在实际应用中，当对数字的要求不是很高或者有大量数据要处理的话，可以偏重使用float，像GUI里面控制像素点的位置，在误差不累积的情形下，几千分之一或者几百分之一甚至几十分之一的误差都是不会直接表现在像素点上的，仅仅一两位小数就是够用的。比如同样对于10,000个像素位置，使用float就要比使用double节省40KB的空间。

而当数据具有以下特点时，就应该好好考虑考虑去使用double类型了：数字被进行频繁更改，比如加减乘除开方等运算，误差的不断累加可能会让一个float类型的变量表现得很奇怪。或者其他一些对精度要求比较高的情况。

在计算机当中，不仅仅是空间和时间，空间和精度也是互相矛盾的。不过在硬件性能逐渐上升的状态下，以double为主将成为一种趋势。

浮点数在内存中的表示

对于一个整数来说，我们都知道，这个数的大小是由2的一些非负整数次幂表示出来的，比如125 = 64 + 32 + 16 + 8 + 4 + 1
那么125的表示就是 1111101。而浮点数的表示就是把小数部分表示成2的一些负数次幂的和，比如0.5表示为.1，0.75表示为.11这样。就这样把123.5转化成二进制 1111011.1 。在实际应用中，出于整齐便于处理等情况的考虑，往往表示成

1.1111011 * 26

$1.1111011 * 2 ^ 6$
关于IEEE的标准还有一些细节需要注意：

符号位：0表示正，1表示负
为了同时将正的和负的指数同时表示为无符号的样子，需要加一个偏移量，float的偏移量是127，double的是1023。
有效数字区域是科学计数法系数的小数部分。由于科学计数法的系数属于 [1.0, 2.0)，所以整数部分没有必要保存。

这样，就可以把浮点数分开成三部分进行保存了。

符号位，正数，记为0
指数位 -6，记为6 + 127，记为 1000 0101
有效数字位，将整数部分去掉后为1111011，补齐23位为 111 1011 0000 0000 0000 0000

于是，125.5在内存中的二进制表示为 0100 0010 1111 1011 0000 0000 0000 0000‬，看到这个32位二进制串，很容易联想到这也可以表示一个int值，进制转换之后得到1123745792。（Windows10 的计算器有程序员模式哦）

接下来，我们就验证一下。

一些验证步骤

这里要用到C/C++里面的union，就是union中的变量的值在同一块内存。比如 0110 0001是一个union {int integer, char character}的值, 那么作为两种数据类型去使用将分别得到 97 和 ‘a’。

代码如下：

#include <stdio.h>
int main() {
    union Bin{
        int i;
        float f;
    };

    union Bin unionBin;
    unionBin.f = 125.5;
    printf("%d\n", unionBin.i);
    printf("%f\n", unionBin.f);

    return 0;
}