浮点运算的定点化

本文介绍了浮点数的存储方式,包括fp16和bf16的区别,并详细阐述了浮点数的定点化过程,强调了定点运算在算法移植和硬件效率上的优势。通过实例展示了定点化计算的方法,以及如何实现定点运算的代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

浮点数的存储方式

根据小数点是否固定,计算机中的数据分为浮点和定点,其中浮点数存储多遵从IEEE标准,包含:s符号位 + exp指数 + frac尾数,根据位数不同浮点数分为double(64bit), float(32bit), fp16(16bit)等,如下图所示:
ALT
以fp16为例,fp16使用两个字节存储数据: s i g n = 1 sign = 1 sign=1 e x p o n e n t = 5 exponent = 5 exponent=5 f r a c t i o n = 10 fraction = 10 fraction=10,则其表示的浮点数为:
d a t a = { ( − 1 ) s i g n × 2 ( e x o n e n t − 15 ) × ( 1 + f r a c t i o n 1024 ) , e x p o n e n t ≠ 0 ( − 1 ) s i g n × 2 − 14 × ( 0 + f r a c t i o n 1024 ) , e x p o n e n t = 0 data=\left\{ \begin{aligned} &(-1)^{sign}\times2^{(exonent -15)}\times(1+\frac{fraction}{1024}),&\quad exponent \neq0 \\ &(-1)^{sign}\times2^{-14}\times(0+\frac{fraction}{1024}),&\quad exponent=0 \end{aligned} \right. data= (1)sign×2(exonent15)×(1+1024fract

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值