浮点数的存储方式

一起来研究一下浮点数在内存中是怎样表示的吼不吼哇~


浮点数的分类

大多数语言中将浮点数分为两大类,32bit和64bit,又叫做float单精度浮点数和double双精度浮点数。相对来说,double类型的数据要比float类型的数据可以表示的精度更高,数据范围更广。

IEEE(电气电子工程师学会,Institute of Electrical and Electronics Engineers)规定:

  • 32位的浮点数,最高的1位是符号位,接着的8位是指数E,剩下的23位为有效数字
  • 64位的浮点数,最高的1位是符号位,接着的11位是指数E,剩下的52位为有效数字

选择切合实际的浮点数类型

可以看出,64位浮点数的指数比32位浮点数多出了三位,表现在数值上则整整多出来(2^11 - 2^8) = 1792位,即二进制里的近一千八百个数量级。用来表示有效数字的位数也翻番了,可以参考int 和 long类型,真的是鸟枪换炮。而它们占用的内存仅仅差了两倍。

在实际应用中,当对数字的要求不是很高或者有大量数据要处理的话,可以偏重使用float,像GUI里面控制像素点的位置,在误差不累积的情形下,几千分之一或者几百分之一甚至几十分之一的误差都是不会直接表现在像素点上的,仅仅一两位小数就是够用的。比如同样对于10,000个像素位置,使用float就要比使用double节省40KB的空间。

而当数据具有以下特点时,就应该好好考虑考虑去使用double类型了:数字被进行频繁更改,比如加减乘除开方等运算,误差的不断累加可能会让一个float类型的变量表现得很奇怪。或者其他一些对精度要求比较高的情况。

在计算机当中,不仅仅是空间和时间,空间和精度也是互相矛盾的。不过在硬件性能逐渐上升的状态下,以double为主将成为一种趋势。

浮点数在内存中的表示

对于一个整数来说,我们都知道,这个数的大小是由2的一些非负整数次幂表示出来的,比如125 = 64 + 32 + 16 + 8 + 4 + 1
那么125的表示就是 1111101。而浮点数的表示就是把小数部分表示成2的一些负数次幂的和,比如0.5表示为.1,0.75表示为.11这样。就这样把123.5转化成二进制 1111011.1 。在实际应用中,出于整齐便于处理等情况的考虑,往往表示成

1.111101126 1.1111011 ∗ 2 6

关于IEEE的标准还有一些细节需要注意:

  • 符号位:0表示正,1表示负

  • 为了同时将正的和负的指数同时表示为无符号的样子,需要加一个偏移量,float的偏移量是127,double的是1023。

  • 有效数字区域是科学计数法系数的小数部分。由于科学计数法的系数属于 [1.0, 2.0),所以整数部分没有必要保存。

这样,就可以把浮点数分开成三部分进行保存了。

  • 符号位, 正数,记为0
  • 指数位 -6,记为6 + 127,记为 1000 0101
  • 有效数字位, 将整数部分去掉后为1111011,补齐23位为 111 1011 0000 0000 0000 0000

于是,125.5在内存中的二进制表示为 0100 0010 1111 1011 0000 0000 0000 0000‬,看到这个32位二进制串,很容易联想到这也可以表示一个int值,进制转换之后得到1123745792。(Windows10 的计算器有程序员模式哦)

接下来,我们就验证一下。

一些验证步骤

这里要用到C/C++里面的union,就是union中的变量的值在同一块内存。比如 0110 0001是一个union {int integer, char character}的值, 那么作为两种数据类型去使用将分别得到 97 和 ‘a’。

代码如下:

#include <stdio.h>
int main() {
    union Bin{
        int i;
        float f;
    };

    union Bin unionBin;
    unionBin.f = 125.5;
    printf("%d\n", unionBin.i);
    printf("%f\n", unionBin.f);

    return 0;
}

输出结果:

1123745792
125.500000

我们的验证就结束了。


在油管上找到一个很好玩的频道Computerphile,有很多和计算机有关的知识,偶然间看到了浮点数在内存中的表示。突然想起来曾经对此好奇过,但是之后就不了了之了,决定今天了结它。


个人网站:锅炉工的锅炉房
Github主页:boileryao@github,欢迎star。

### IEEE 754 浮点数存储详解 IEEE 754 是一种广泛使用的浮点数表示标准,用于定义计算机中浮点数值的存储方式。该标准通过三个主要部分来描述一个浮点数:符号位、指数码以及尾数码。 #### 符号位 (Sign Bit) 符号位是一个单比特值,用来表示浮点数的正负性。如果符号位为 `0`,则代表这是一个正值;如果是 `1`,则代表这是一个负值[^1]。 #### 指数码 (Exponent Field) 指数码是用来表示浮点数规模的部分,在 IEEE 754 中采用移码形式进行编码。对于单精度浮点数(32 位),指数域占用 8 位,而双精度浮点数(64 位)则使用 11 位作为指数域。为了简化比较操作并避免处理负指数的情况,实际存储的是经过偏置后的真值。具体来说,偏置值被设定为 \(2^{k-1} - 1\) ,其中 k 表示指数域所占的位数。例如,在单精度情况下,\(k = 8\),所以偏置值等于 \(2^{8-1}-1=127\)[^1]。这意味着当原始指数 e 的范围是从 \(-126\) 到 \(127\) 时,其对应的指数码 E 应满足关系式 \(E=e+127\) 。特殊情形如全零或全一的指数码另有特定含义,比如分别对应于次正规数或者无穷大/NaN 等情况[^2]。 #### 尾数码 (Mantissa/Fraction Field) 尾数码也称为有效数字部分,它决定了浮点数的具体数值大小。在规范化表达中,默认存在隐含的一位整数前缀 '1.' 被省略掉不再显式存储,仅记录小数点之后的小数部分。这样可以提高数据密度并且保持较高的精确度。例如,假设某个规格化浮点数的有效数字为 \(1.x_1x_2...x_n\) (这里 n 取决于尾数长度),那么实际上只保存了 \(x_1x_2...x_n\) 这些后续位元组[^1]。 以下是基于 Python 实现的一个简单例子展示如何解析给定十进制数到 IEEE 754 单精度格式的过程: ```python import struct def float_to_ieee754(value): packed = struct.pack('!f', value) # Pack the floating-point number into bytes. unpacked = ''.join(f'{byte:0>8b}' for byte in packed[::-1]) # Convert each byte to binary string and reverse order. sign_bit = int(unpacked[0]) exponent_bits = int(unpacked[1:9], base=2) - 127 fraction_bits = sum(int(bit)*pow(2, -(idx)) for idx, bit in enumerate(unpacked[9:], start=1)) result = (-1)**sign_bit * (1 + fraction_bits) * pow(2, exponent_bits) return f"{'-' if sign_bit else ''}{result:.{len(str(abs(result)))}e}" print(float_to_ieee754(-20.5)) ``` 此脚本会输出 `-2.050000e+01`, 它展示了按照 IEEE 754 标准转换得到的结果。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值