问题呈现
在Go语言中,有两种浮点数类型(虚数除外):float32和float64. 浮点数是用来解决整数不能表示小数的问题。我们需要知道浮点数算术运算是实数算术运算的近似,下面通过例子说明浮点数运算采用近似值的影响以及如何提高计算精度。
var n float32 = 1.0001
fmt.Println(n * n)
上面的程序,我们的预期结果可能是 1.0001 * 1.0001 = 1.00020001。然而,实际上在大多数的x86处理器上,运行结果为 1.0002。
原因分析
如何解释这种差异呢?我们先来理解浮点数运算规则。
以float64为例,在math.SmallestNonzeroFloat64(float64的最小值)到math.MaxFloat64(float64的最大值)区间内有无穷尽个实数值。但是float64是用64个bit位表示的,将无穷尽的实数一一映射到有限的64个bit上是无法实现的。必须采用近似值的方法,丢失一些精度信息。同理对于float32类型,也是这样。
Go语言中的浮点数遵循IEEE-754标准,用部分bit位表示尾数,另一部分bit位表示指数。尾数用来表示基本值,指数将与尾数进行相乘得到的结果为最终的数值。在单精度浮点类型(float32)中,用8个bit位表示指数,23个bit位表示尾数,还有1个bit位是符号位。在双精度浮点类型(float64)中,分别用11个和52个bit位表示指数和尾数,剩下的1个bit位表示符合。可以用下面的计算公式将浮点数转为十进制数。