深入计算机组成原理(十五)浮点数和定点数(上):怎么用有限的bit标识尽可能多的信息?

在计算机科学中,浮点数的表示与计算是程序开发不可或缺的一部分。本文深入探讨了为何简单运算如0.3+0.6在Python或JavaScript中无法得到精确的0.9,解析了浮点数的不精确性及其背后的原因。文章对比了BCD编码的定点数与IEEE标准的浮点数表示方法,揭示了浮点数如何通过科学记数法在有限的比特位内表示极大或极小的数值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在我们日常的程序开发中,不只会用到整数。更多情况下,我们用到的都是实数。比如,我们开发一个电商App,商品的价格常常会是9.9;再比如说,现在流行的深度学习算法,对应的机器学习里的模型里的各个权重也都是1.23这样的数。可以说,在实际的应用过程中,这些有零又整的实数,是和整数同样常用的数据类型,我们也需要考虑到。

浮点数的不精确性

那么,我们能不能用二进制标识所有的实数,然后在二进制下计算它的加减乘除呢?先不着急,我们从一个有意思的小案例开始。

你可以在Linux下打开Python的命令行Console,也可以在Chrome浏览器里面通过开发者工具,打开浏览器的Console,在里面输入“0.3+0.6”,然后看看你会得到一个什么样的结果。

>>> 0.3 + 0.6
0.8999999999999999

不知道你有没有大吃一惊,这么简单的一个加法,无论是在Python还是在JavaScript里面,算出来的结果居然不是准确的0.9,而是0.89999这么个结果,这是为什么呢?

在回答为什么之前,我们先来想一个更抽象的问题。通过前面的这么多讲,你应该直到我们现在用过的计算机通常用16/32个比特(bit)来表示一个数。那我问你,我们用32个比特,能够表示所有实数吗?

答案很显然是不能。32个比特,只能表示2的32次方个不同的数,差不多是40亿个。如果表示的数要超过这个数,就会有两个不同的数的二进制表示是一样的。那计算机可就会一筹莫展,不知道这个数到底是多少了。

40亿个数看似已经很多了,但是比起无限多的实数集合却是沧海一粟。所以,这个时候,计算机的设计者们,就要面临一个问题了;我到底应该让这40亿个数映射到实数集合上的哪些数,在实际应用中才能最划得来呢?

定点数的表示

一个很直观的想法,就是我们用4个比特来表示0~9的整数,那么32个比特就可以表示8个这样的整数。然后我们把最右边的2个0 ~ 9的整数,当成小数部分;把左边6个0 ~ 9的整数,当成整数部分。这样,我们就可以用32个比特,来表示从0到999999.99这样一亿个实数了。

在这里插入图片描述

这种用二进制来表示十进制的编码方式,叫做BCD编码(Binary-Coded Decimal)。其实它的运用非常广泛,最常用的是在超市、银行这样需要用小数记录金额的情况里。在超市里面,我们的小数最多也就到分。这样的表示方式,比较直观清楚,也满足了小数部分的计算。

不过,这样的表示方式也有几个缺点。

第一,这样的表示方式有点“浪费”。本来32个比特我们可以表示40亿个不同的数,但是在BCD编码下,只能表示一亿个数,如果我们要精确到分的话,那么能够表示的最大金额也就是到100万。

第二,这样的表示方式没办法同时表示很大的数字和很小的数字。我们在写程序的时候,实数的用途可能是多种多样的。有时候我们想要表示商品的金额,关心的是9.99这样小的数字;有时候,我们又要进行物理学的运算,需要表示光速,也就是3*10的8次方这样很大的数字。那么,我们有没有一个办法,既能够表示很小的数,又能表示很大的数呢?

浮点数的表示

答案当然是有的,就是你可能经常听说过的浮点数(Floating Point),也就是float类型

在计算机里,我们也可以用一样的办法,用科学记数法来表示实数。浮点数的科学记数法的表示,有一个IEEE的标准,它定义了两个基本的格式。一个是用32比特表示单精度的浮点数,也就是我们常常说的float或者float32类型。另外一个是用64比特表示双精度的浮点数,也就是我们平常说的double或者float64类型。

双精度类型和单精度类型差不多,这里,我们来看单精度类型,双精度你自然也就明白了。

在这里插入图片描述

单精度的32个比特可以分为三部分。

第一部分是一个符号位,用来表示是正数还是负数。我们一般用s来表示。在浮点数里,我们不像正数分符号数还是无符号数,所有的浮点数都是有符号的。

接下来是一个8个比特组成的指数位。我们一般用e来表示。8个比特能够表示的整数空间,就是0 ~ 255.我们在这里用1 ~ 254映射到-126 ~ 127这254个有正有负的数上。因为我们的浮点数,不仅仅想要表示很大的数,还希望能够表示很小的数,所以指数位也会有负数。

你发现没,我们没有用到0和255.没错,这里的0(也就是8个比特全部为0)和255(也就是8个比特全部为1)另有他用。我们等一下再讲。

最后,是一个23个比特组成的有效数位。我们用f来表示。综合科学记数法,我们的浮点数就可以表示成下面这样:

在这里插入图片描述

你会发现,这里的浮点数,没有办法表示0.的确,要表示0和一些特殊的数,我们就要用上在e里面留下的0和255这两个表示,这两个表示其实是两个标记位,在e为0且f为0的时候,我们就把这个浮点数认为是0.至于其他的e的是0或者255的特殊情况,你可以看下面这个表格,分别可以表示出无穷大、无穷小、NAN以及一个特殊的不规范数。

在这里插入图片描述
在这里插入图片描述

总结延伸

你会看到,在这样的表示方式下,浮点数能够表示的数据范围一下子大了很多。正是因为这个数对应的小数点的位置是“浮动“的,它才被称为浮点数。随着指数位e的值的不同,小数点的位置也在变动。对应的,前面的BCD编码的实数,就是小数点固定在某一位的方式,我们也就把它称为定点数

回到我们最开头,为什么我们用0.3+0.6不能得到0.9呢?这是因为,浮点数没办法精确表示0.3、0.6和0.9.事实上。我们拿出0.1 ~ 0.9这9个数,其中只有0.5能够被精确地表示成二进制的浮点数,也就是s=0、e=-1、f=0这样的情况。

而0.3、0.6乃至我们希望的0.9,都只是一个近似的表达。这个也为我们带来了一个挑战,就是浮点数无论是表示还是计算其实都是近似计算。那么,在使用过程中,我们该怎么来使用浮点数,以及使用浮点数会遇到些什么问题呢?下一讲,我会用更多的实际代码案例,来带你看看浮点数计算中的各种”坑”。

思考

对于BCD编码的定点数,如果我们用7个比特来表示连续两位十进制数,也就是00 ~ 99 ,是不是可以让32比特表示更大一点的数据范围?如果我们还需要表示负数,那么一个32比特的BCD编码,可以表示的数据范围是多大?

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值