满意答案
desh53
2013.11.15
采纳率:42% 等级:9
已帮助:316人
目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float,double运算。这种结构是一种科学计数法,用符号、指数和尾数来表示,底数定为2.
即把一个浮点数表示为尾数乘以2的指数次方再添上符号。下面是具体的规格:
符号位 阶码 尾数 长度
float 1 8 23 32 //4个字节
double 1 11 52 64 //8个字节
举个例子:
100=1*2^6+1*2^5+1*2^2=(1+1/2+1/16)*2^6
100为正数,符号位为0,
阶码,一共8位,因为指数可以为负,为了便于计算,规定都先加上127,在这里6+127=133转为二进制为10000101
尾数转为1.1001,去掉最高位整数位1,则尾数转为23位二进制为10010000000000000000000
合在一起就是01000010110010000000000000000000
这里解释一下为什么去掉最高整数位1,因为在二进制里面最高位始终为1,所以可以去掉它,本来要24位才能表示的数值范围,用23位存储就可以达到。追问: 如果是小数呢?比如90.56
追答:对于小数90.56=1.415*2^6,这时尾数为1.0110....(后面省略了),当位数大于23位时,这时就由精度损失了,其余和上面一样了。
00分享举报