浮点型的存储

1.0的浮点形式,在内存中是这样存的:

   0011 1111 1000 0000 0000 0000 0000 0000

符号部分:0(粉红背景处);

指数部分:127+0=127(黄色背景处) 

底数部分:0(蓝色背景处)

转换为十进制就是:106535216

---------------------------------------------------------------------------------------------------------------------------------------

 

浮点数包括float和double两种类型,float占32位,double占64位。其二进制存储格式遵循IEEE754标准。以float为例:

      

      符号位:正数为0,负数为1

      以float型数据123.456为例,分析其二进制存储格式:

      首先将十进制数123.456转换为二进制数为:1111011. 01110100101111001 

      (其中0.456如何转换为二进制?不断乘2取整,顺序排列

       如:0.734375转二进制,结果是101111。

          0.734375 x 2 = 1.46875
          0.46875 x 2 = 0.9375
          0.9375 x 2 = 1.875
          0.875 x 2 = 1.75
          0.75 x 2 = 1.5
          0.5 x 2 = 1.0) 

 

      1111011. 01110100101111001 即1. 11101101110100101111001乘以2的6次方

      首先这是一个正数,则符号位为0

      阶码为6,不过要转换成移码。

      (如何求6的移码?这里我也不太深究,我见大家都是直接6+127=133,换为2进制为10000101)

      (移码与补码的关系: [X]移与[X]补的关系是符号位互为相反数(仅符号位不同))

      尾数则为1. 11101101110100101111001的小数部分,即

11101101110100101111001

综上:123.456的二进制存储格式为:01000010111101101110100101111001

 

 

 

-------------------------------------------------以下介绍浮点数的存储------------------------------------------------------

浮点数:
     浮点型变量在计算机内存中占用4字节(Byte),即32-bit。遵循IEEE-754格式标准。一个浮点数由2部分组成:底数m 和指数e。

    ±mantissa × 2exponent
(注意,公式中的mantissa 和 exponent使用二进制表示)
   底数部分 使用2进制数来表示此浮点数的实际值。
   指数部分 占用8-bit的二进制数,可表示数值范围为0-255。
   指数应可正可负,所以IEEE规定,此处算出的次方须减去127才是真正的指数。所以float的指数可从 -126到128
   底数部分实际是占用24-bit的一个值,由于其最高位始终为 1 ,所以最高位省去不存储,在存储中只有23-bit。
   到目前为止, 底数部分 23位加上指数部分 8位使用了31位。那么前面说过,float是占用4个字节即32-bit,那么还有一位是干嘛用的呢? 还有一位,其实就是4字节中的最高位,用来指示浮点数的正负,当最高位是1时,为负数,最高位是0时,为正数。

   浮点数据就是按下表的格式存储在4个字节中:

    Address+0 Address+1 Address+2 Address+3

   Contents SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM
   S: 表示浮点数正负,1为负数,0为正数
   E: 指数加上127后的值的二进制数
   M: 24-bit的底数(只存储23-bit)

   注意:这里有个特例,浮点数为0时,指数和底数都为0,但此前的公式不成立。因为2的0次方为1,所以,0是个特例。当然,这个特例也不用认为去干扰,编译器会自动去识别。

举例1:计算机存储中的二进制数如何转换成实际浮点数
   通过上面的格式,我们下面举例看下-12.5在计算机中存储的具体数据:
   Address+0 Address+1 Address+2 Address+3

   Contents 0xC1 0x48 0x00 0x00
   接下来我们验证下上面的数据表示的到底是不是-12.5,从而也看下它的转换过程。

   由于浮点数不是以直接格式存储,他有几部分组成,所以要转换浮点数,首先要把各部分的值分离出来。

   Address+0 Address+1 Address+2 Address+3

   格式 SEEEEEEE EMMMMMMM MMMMMMMM MMMMMMMM

   二进制 11000001 01001000 00000000 00000000

   16进制 C1 48 00 00

    可见:

    S: 为1,是个负数。

    E:为 10000010 转为10进制为130,130-127=3,即实际指数部分为3.

    M:为 10010000000000000000000。这里,在底数左边省略存储了一个1,使用实际底数表示为 1.10010000000000000000000

    到此,我们吧三个部分的值都拎出来了,现在,我们通过指数部分E的值来调整底数部分M的值。调整方法为:如果指数E为负数,底数的小数点向左移,如果指数E为正数,底数的小数点向右移。小数点移动的位数由指数E的绝对值决定。

    这里,E为正3,使用向右移3为即得: 1100.10000000000000000000 至次,这个结果就是12.5的二进制浮点数,将他换算成10进制数就看到12.5了,如何转换,看下面:

   小数点左边的1100 表示为 (1 × 23) + (1 × 22) + (0 × 21) + (0 × 20), 其结果为 12 。

   小数点右边的 .100… 表示为 (1 × 2-1) + (0 × 2-2) + (0 × 2-3) + ... ,其结果为.5 。

   以上二值的和为12.5, 由于S 为1,使用为负数,即-12.5 。

   所以,16进制 0XC1480000 是浮点数 -12.5 。

举例2:浮点数转换成计算机存储格式中的二进制数。
   举例将 17.625换算成float型。
   首 先,将17.625换算成二进制位:10001.101 ( 0.625 = 0.5+0.125, 0.5即 1/2, 0.125即1/8 如果不会将小数部分转换成二进制,请参考其他书籍)
   再将 10001.101 向左移,直到小数点前只剩一位成了 1.0001101 x 2的4次方(因为左移了4位)。此时我们的底数M和指数E就出来了:

   底数部分M,因为小数点前必为1,所以IEEE规定只记录小数点后的就好,所以此处底数为 0001101 。
   指数部分E,实际为4,但须加上127,固为131,即二进制数 10000011 
   符号部分S,由于是正数,所以S为0.

   综上所述,17.625的 float 存储格式就是:

   0 10000011 00011010000000000000000

  转换成16进制:0x41 8D 00 00

  所以,一看,float还是占用了4个字节。

****************************************************************

double在内存中的保存,double是8个字节64位,其中最高位63位是符号位,1表示该数为负,0正;62-52位,一共11位是指数位;51-0位,一共52位是尾数位。

举例3:按照IEEE浮点数表示法,下面将把double型浮点数38414.4转换为十六进制代码。

把整数部和小数部分开处理:整数部直接化十六进制:960E。小数的处理:  
  0.4=0.5*0+0.25*1+0.125*1+0.0625*0+……  
          实际上这永远算不完!这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53位就行了(隐藏位技术:最高位的1  
   
  不写入内存)。  
          如果你够耐心,手工算到53位那么因该是:38414.4(10)=1001011000001110.0110101010101010101010101010101010101(2)  
  科学记数法为:1.001……乘以2的15次方。指数为15!  
          于是来看阶码,一共11位,可以表示范围是-1024   ~   1023。因为指数可以为负,为了便于计算,规定double型阶码都先加上1023,在这里,  
   
  15+1023=1038。二进制表示为:100   00001110  
          符号位:正——   0   !  
          合在一起(尾数二进制最高位的1不要):  
  01000000   11100010   11000001   11001101   01010101   01010101   01010101   01010101  

  按字节倒序存储的十六进制数就是:  
  55   55   55   55   CD   C1   E2   40

 

转自:http://blogold.chinaunix.net/u3/117012/showart_2312474.html

 

 

------------------------------------------------------------------------------------------------------------------------------------------------

 

对于下面的程序,我用VS2003运行的结果第一个是0,第二个是一个很大的数。 
#include <stdio.h> 
int main() 

    printf("%f",5);    //line 1 
    printf("%d",5.01);  //line 2 
}

具体原因在论坛上提问后得到结果。引用答案如下

    关键你要理解浮点数的存储格式! 

printf("%f",5);    //line 1 
5在内存中是 0x00 00 00 05,按照float格式解释是一个无限接近于0的浮点数数 

    printf("%d",5.01);  //line 2 
5.01按照整数去解释,这个数应该是一个非常大的整数

帮1楼补充几句: 
这是printf可变参数不做类型检查引起的。 
int printf(const char *format, ...); 

printf("%f",5);    //line 1 
编译器在给printf传参的时候,不知道这个5应该传什么类型,所以只能按1楼所说整数的格式传进去。在printf里面使用这个参数的时候却是按照"%f"的要求解释成了浮点数。 
前面的"%f"对编译器来说就是一个普通字符串而已,编译器不懂printf的格式。 
所以可变参数的函数是很危险的,尽量少用。 

如果是一个普通的函数,编译器就会根据函数原型,在传参的时候自动做类型转换。 
比如 
void foo(float f); 
...... 
    foo(5); 
在这里编译器知道foo需要一个浮点数,事先就会把5转换成浮点数的格式传进去。

 

转自:http://blog.youkuaiyun.com/zhouxqwh/archive/2008/08/19/2794233.aspx

<think>嗯,用户这次的问题聚焦在浮点数据存储电能数值的精度处理上。结合之前的对话历史,注意到我在介绍Posit算法时提到过数值稳定性优势,但用户现在实际关心的是传统浮点数在电力领域的应用细节。用户可能是电气工程师或嵌入式开发人员,正在设计电能计量系统。这类系统对小数点后多位的精度要求很高,尤其是涉及计费场景。ta特意强调“小数精度问题”,说明可能遇到过累计误差导致的业务问题,比如电费计算偏差。专业层面需要拆解几个关键点:首先电能数值的特殊性在于同时包含宽动态范围(从微瓦到兆瓦级)和固定精度需求(通常小数点后4位)。IEEE754标准的浮点数虽然方便,但存在三大痛点:1)十进制-二进制转换误差(如0.1无法精确表示)2)大数小数相加时的有效位丢失(比如10000kW+0.0001kW)3)多次运算后的误差累积值得强调几个行业实践:电力领域普遍采用扩大整数倍存储的策略(如将1kWh存为10000Wh整数),这样能彻底避免浮点误差。而波形分析场景则建议将RMS计算放在硬件层用专用芯片处理(参考用户提供的引用[2]),软件层面主要处理标量化结果。最后补充一个容易忽略的点:IEC62053电能计量标准实际上要求0.5级电表的误差必须小于±0.5%,这对浮点数的有效位数提出了明确要求——单精度浮点可能不够,需要双精度或定点数方案。</think> 在电能数值存储和处理中,浮点型数据的精度问题需重点关注以下几个方面: ### 一、浮点数的精度特性 1. **IEEE 754标准** 绝大多数系统采用IEEE 754标准的浮点数: - 单精度(32位):约6-9位有效小数位 - 双精度(64位):约15-17位有效小数位 $$ \text{存储值} = (-1)^s \times (1 + \text{mantissa}) \times 2^{\text{exponent} - \text{bias}} $$ 2. **电能数值的特殊性** - 同时存在极大值(兆瓦时)和极小值(毫瓦时) - 需避免累加误差(如电表数据持续累加) ### 二、关键处理策略 1. **单位缩放法**(推荐) ```python # 以微瓦时(μWh)为单位存储,避免小数 energy_uWh = int(measured_value * 1e6) ``` - 原理:用整数存储,精度=0误差 - 例:1.23456kWh → 1234560000μWh(整数存储) 2. **双精度优先原则** ```c double energy_kWh = 12345.678901234567; // 15位有效数字 ``` - 相比单精度误差降低 $10^{-9} \to 10^{-15}$ 3. **Kahan求和算法**(防累加误差) ```python def kahan_sum(values): total = 0.0 compensation = 0.0 for v in values: y = v - compensation t = total + y compensation = (t - total) - y total = t return total ``` - 消除浮点加法的舍入误差 ### 三、电力领域的特殊考量 1. **RMS计算要求**(引用[2]拓展) $$ \text{RMS} = \sqrt{\frac{1}{T}\int_0^T u(t)^2 dt} $$ - 建议:波形数据采集用整数型ADC,计算过程用双精度 - 避免直接浮点存储原始波形(引用[2]) 2. **电能计量标准** | 电表等级 | 允许误差 | 所需最小精度 | |---------|----------|--------------| | 0.5级 | ±0.5% | 12位有效数字 | | 0.2级 | ±0.2% | 14位有效数字 | ### 四、最佳实践建议 1. **存储层** - 策略:整数存储(单位缩放法)+ 毫秒级时间戳 - 数据库类型:`DECIMAL(20, 6)` 或 `BIGINT` 2. **计算层** ```c++ // 使用IEEE 754-2008 decimal float(若支持) std::decimal::decimal64 energy = 123456.012345_d64; ``` - 或采用开源高精度库(如GMP, MPFR) 3. **信号处理层** - 参考Posit算法优势(引用[1]): - 在电能波动分析中减少累积误差 - 动态范围比浮点更适应负载变化 > **精度损失警示**:当电能值 < $10^{-6}$ × 最大值时,单精度浮点将丢失精度,建议进行值域预判[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值