浮点数(float)又称作浮点数,是属于有理数中某特定子集的数的数字表示,在计算机中用以近似表示任意某个实数。具体来说,这个实数由一个整数或定点数(即尾数)乘以某个基数(计算机中通常是2)的整数次幂得到,这种表示方法类似于基数为10的科学记数法。
浮点计算是指浮点数参与的运算,这种运算通常伴随着因为无法精确表示而进行的近似或舍入。
一个浮点数a由两个数m和e来表示:a = m × be。在任意一个这样的系统中,我们选择一个基数b(记数系统的基)和精度p(即使用多少位来存储)。m(即尾数)是形如±d.ddd...ddd的p位数(每一位是一个介于0到b-1之间的整数,包括0和b-1)。如果m的第一位是非0整数,m称作正规化的。有一些描述使用一个单独的符号位(s 代表+或者-)来表示正负,这样m必须是正的。e是指数。
这种设计可以在某个固定长度的存储空间内表示定点数,但无法表示的更大范围的数。
例如,一个指数范围为±4的4位十进制浮点数可以用来表示43210,4.321或0.0004321,但是没有足够的精度来表示432.123和43212.3(必须近似为432.1和43210)。当然,实际使用的位数通常远大于4。
此外,浮点数表示法通常还包括一些特别的数值:+∞和?6?1∞(正负无穷大)以及NaN('Not a Number')。无穷大用于数太大而无法表示的时候,NaN则指示非法操作或者无法定义的结果。
浮点数的比较浮点数基本上可以按照符号位、指数域、尾数域的顺序作字典比较。显然,所有正数大于负数;正负号相同时,指数的二进制表示法更大的其浮点数值更大。
浮点数的舍入
任何有效数上的运算结果,通常都存放在较长的暂存器中,当结果被放回浮点格式时,必须将多出来的位元丢弃。 有多种方法可以用来执行舍入作业,实际上IEEE标准列出4种不同的方法:
- 舍入到最接近:会将结果舍入为最接近且可以表示的值。这是缺省的近似方法。
- 朝+∞方向舍入:会将结果朝正无限大的方向舍入。
- 朝-∞方向舍入: 会将结果朝负无限大的方向舍入。
- 朝0方向舍入: 会将结果朝0的方向舍入。
浮点数的运算与函数
标准运算
下述函数必须提供:
- 加减乘除 Add, subtract, multiply, divide
- 平方根 Square root
- 浮点余数. 返回值 x-(round(x/y)*y).
- 近似到最近的整数. 如果恰好在两个相邻整数之间,则近似到偶数.
- 比较运算. IEEE754定义了特殊情况: -inf = -inf, inf = inf and x ≠ NaN for any x (including NaN).