浮点数的存储

本文详细解析了单精度(float)与双精度(double)的区别,包括存储位数、有效数字和指数的规定。介绍了如何将十进制转换为二进制浮点数,并依据IEEE754标准讨论了有效数字M和指数E的编码规则。通过实例演示了浮点数9.0的二进制表示及其还原过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.单精度与双精度区别

1.单精度和双精度精确的范围不一样:

单精度,也即float,一般在计算机中存储占用4字节,也32位,有效位数为7位;
双精度(double)在计算机中存储占用8字节,64位,有效位数为16位

2.在计算机上的存储都遵循IEEE规范,使用二进制科学计数法:

在这里插入图片描述

IEEE 754规定,对于32位的浮点数,最高的1位是符号位s,接着的8位是指数E,剩下的23位为有效数字M
在这里插入图片描述

3.精确度:

精度主要取决于尾数部分的位数,float为23位,除去全部为0的情况以外,最小为2的-23次方,约等于1.19乘以10的-7次方,所以float小数部分只能精确到后面6位,加上小数点前的一位,即有效数字为7位。 类似,double 尾数部分52位,最小为2的-52次方,约为2.22乘以10的-16次方,所以精确到小数点后15位,有效位数为16位

2.将十进制浮点数转换为二进制浮点数

快速将十进制转为二进制:

找小于并邻近这个数的 2 N 2^N 2N, 整数时N为正,小数时N为负数,并依次获取。

将178.125转为二进制:

178 = 128 + 32 + 16 + 2 = 2 7 2^7 27 + 2 4 2^4 24 + 2 4 2^4 24 + 2 1 2^1 21 = 10110010
0.125 = 1 8 \frac{1}{8} 81 = 2 − 3 2^{-3} 23 = 0.001
178.125 = 10110010.001

二进制浮点移位:

10110010.001 = 1.0110010001 * 2 7 2^7 27;

在内存中的存储形式:

在这里插入图片描述

3.IEEE 754 对有效数字M和指数E的规定

对有效数字 M 的规定:

前面说过,1≤M<2,也就是说,M可以写成1.xxxxxx的形式,其中xxxxxx表示小数部分。
IEEE 754规定,在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面的xxxxxx部分
比如保存1.01的时候,只保存01,等到读取的时候,再把第一位的1加上去。 这样做的目的,是节省1位有效数字。以32位浮点数为例,留给M只有23位,将第一位的1舍去以后,等于可以保存24位有效数字

对指数 E 的规定:

1.E为一个无符号整数(unsigned int)。这意味着,如果E为8位,它的取值范围为0255;如果E为11位,它的取值范围为02047
2.科学计数法中的E是可以出现负数的,所以IEEE 754规定,E的真实值必须再减去一个中间数,对于8位的E,这个中间数是127;对于11位的E,这个中间数是1023

比如,2^10的E是10,所以保存成32位浮点数时,必须保存成10+127=137,即10001001。

指数E还可以再分成三种情况:

(1)E不全为0或不全为1。这时,浮点数就采用上面的规则表示,即指数E的计算值减去127(或1023),得到真实值,再将有效数字M前加上第一位的1。

(2)E全为0。这时,浮点数的指数E等于1-127(或者1-1023),有效数字M不再加上第一位的1,而是还原为0.xxxxxx的小数。这样做是为了表示±0,以及接近于0的很小的数字。

(3)E全为1。这时,如果有效数字M全为0,表示±无穷大(正负取决于符号位s);如果有效数字M不全为0,表示这个数不是一个数(NaN)

4.实验

请问浮点数9.0,如何用二进制表示?还原成十进制又是多少?

首先,浮点数9.0等于二进制的1001.0,即1.001×2^3。
那么,第一位的符号位s=0,有效数字M等于001后面再加20个0,凑满23位,指数E等于3+127=130,即10000010。
所以,写成二进制形式,应该是s+E+M,即0 10000010 001 0000 0000 0000 0000 0000。这个32位的二进制数,还原成十进制,正是1091567616。

#include <stdio.h>

int main(void){
    int num=9; /* num是整型变量,设为9 */
    float* pFloat=(float*)&num; /* pFloat表示num的内存地址,但是设为浮点数 */
    printf("num的值为:%d\n",num); /* 显示num的整型值 */
    printf("*pFloat的值为:%f\n",*pFloat); /* 显示num的浮点值 */
    *pFloat=9.0; /* 将num的值改为浮点数 */
    printf("num的值为:%d\n",num); /* 显示num的整型值 */
    printf("*pFloat的值为:%f\n",*pFloat); /* 显示num的浮点值 */

    return 0;
}

output:

num的值为:9
*pFloat的值为:0.000000
num的值为:1091567616
*pFloat的值为:9.000000
>>> bin(1091567616)  # python3
'0b1000001000100000000000000000000'

参考资料

IEEE-754 Floating Point Converter
浮点数的二进制表示
同样是占32个坑,凭啥你float就比int的范围更大?
编辑器对于内存的使用——数据的保存与访问使用(浮点数篇

### IEEE 754 浮点数存储详解 IEEE 754 是一种广泛使用的浮点数表示标准,用于定义计算机中浮点数值的存储方式。该标准通过三个主要部分来描述一个浮点数:符号位、指数码以及尾数码。 #### 符号位 (Sign Bit) 符号位是一个单比特值,用来表示浮点数的正负性。如果符号位为 `0`,则代表这是一个正值;如果是 `1`,则代表这是一个负值[^1]。 #### 指数码 (Exponent Field) 指数码是用来表示浮点数规模的部分,在 IEEE 754 中采用移码形式进行编码。对于单精度浮点数(32 位),指数域占用 8 位,而双精度浮点数(64 位)则使用 11 位作为指数域。为了简化比较操作并避免处理负指数的情况,实际存储的是经过偏置后的真值。具体来说,偏置值被设定为 \(2^{k-1} - 1\) ,其中 k 表示指数域所占的位数。例如,在单精度情况下,\(k = 8\),所以偏置值等于 \(2^{8-1}-1=127\)[^1]。这意味着当原始指数 e 的范围是从 \(-126\) 到 \(127\) 时,其对应的指数码 E 应满足关系式 \(E=e+127\) 。特殊情形如全零或全一的指数码另有特定含义,比如分别对应于次正规数或者无穷大/NaN 等情况[^2]。 #### 尾数码 (Mantissa/Fraction Field) 尾数码也称为有效数字部分,它决定了浮点数的具体数值大小。在规范化表达中,默认存在隐含的一位整数前缀 '1.' 被省略掉不再显式存储,仅记录小数点之后的小数部分。这样可以提高数据密度并且保持较高的精确度。例如,假设某个规格化浮点数的有效数字为 \(1.x_1x_2...x_n\) (这里 n 取决于尾数长度),那么实际上只保存了 \(x_1x_2...x_n\) 这些后续位元组[^1]。 以下是基于 Python 实现的一个简单例子展示如何解析给定十进制数到 IEEE 754 单精度格式的过程: ```python import struct def float_to_ieee754(value): packed = struct.pack('!f', value) # Pack the floating-point number into bytes. unpacked = ''.join(f'{byte:0>8b}' for byte in packed[::-1]) # Convert each byte to binary string and reverse order. sign_bit = int(unpacked[0]) exponent_bits = int(unpacked[1:9], base=2) - 127 fraction_bits = sum(int(bit)*pow(2, -(idx)) for idx, bit in enumerate(unpacked[9:], start=1)) result = (-1)**sign_bit * (1 + fraction_bits) * pow(2, exponent_bits) return f"{'-' if sign_bit else ''}{result:.{len(str(abs(result)))}e}" print(float_to_ieee754(-20.5)) ``` 此脚本会输出 `-2.050000e+01`, 它展示了按照 IEEE 754 标准转换得到的结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值