在平时的编程中,很少会去关心浮点数的存储问题,但是一旦问题来了就不得不硬着头皮面对,为此将自己对它的理解记录下来,以便下次遇到的时候能够快速回忆起来。
float和doubl都表示浮点数,其中float为占用32bit,double占用64bit,它们的存储结构是一样的,不同的地方就是表示的位数不同。下面介绍double型浮点数的存储结构。在它的64bit中,最高位[63]为符号位,为1时表示负数,为0时表示正数;[62:52]表示指数;[51:0]表示尾数,下面举例说明。
对于double型浮点数324.234,它是怎么表示的呢,首先它为一个正数,符号位[63]为0,然后将其转换为二进制的表示形式,整数部分为101000100,小数部分为00111011....合在一起就是101000100.00111011....。下面进行标准化,就是移动小数点的位置使得小数点前面为1,其余位均在小数点后(二进制数的开头总是1),然后再乘以2的n次方,即1.0100010000111011....*2^8,这里小数点后面的数就是尾数,一共有52位,小数点移动的位数8就是2的指数,在内存中表示指数的时候是将8加上1023之后再进行存储的,这是因为指数的位数为11位,可以表示的范围为-1024~1023,1023刚好是一个中间数,可以加,可以减,这样可以存储的最大指数为1024,最小指数位-1024。这样这个double型浮点数在内存中的表示就是这样:
0 10000000111 0100010000111011....一共64bit
有了上面的概念,就不难理解double型浮点数的范围和有效位数。指数表示的是double型的二进制表示标准化的过程中小数点向左或向右移动的位数,它的最大指数为1024,因此可以表示的数范围为-2^1024~2^1024,最小的小数为2^-1024。尾数则表示标准化之后的小数部分的长度,它代表着浮点数的有效位数,因为过多的位数会在标准化过程中被截掉,是没有意义的,因此有效位数为2^52对应的十进制数的位数,为15~16位。如果一个小数太长比如1324.3425871234581923,那么他的后面几位就会被截掉,不能够表示出来,这就是为什么浮点数的范围足够大,但它的有效位数却是有限的。