1. 写在开始
对一个合格且优秀的开发人员来说,能够明晰和掌握计算机底层运作机制是尤为重要的;否则,在解决开发过程中所遇到的问题时,就会如同盲人摸象,而没有头绪。因此,笔者今天的博客内容,主要是对近一段时间内学习数据在内存中的存储方式的总结与梳理(C语言)。内容如下:
2. 数据类型
2.1 整型
整型家族:
char:
unsigned char
signed char
short:
unsigned short
signed short
int:
unsignde int
signed int
long:
unsigned long
signed long
- char虽然是字符类型,但是字符类型的数据进行存储的时候,存储的是字符的ASCII码值,所以仍归为整型;
- char创建的变量,无法确定其是否具有符号位,因为取决于编译器;
- short、int、long等数据类型,在创建相应的变量时,默认创建的是有符号位的相应数据类型变量。
每一种数据类型都是有取值范围的! 如:
unsigned char : 0 ~ 255
signed char : -128 ~ 127
2.2 浮点型家族
- float
- double
- long double (C99标准引入)
2.3 构造类型
- 结构体类型
- 数组类型
- 枚举类型
- 联合类型
2.4 指针类型
- char* pc
- int* pi
- float* pf
- void* pv
2.5 空类型
- void
- 函数的返回类型
- 函数的参数
- 指针类型
3. 存储方式
3.1 整型数据在内存中的存储方式
3.1.1 三种表示方式
原码、反码和补码
- 原码: 直接将数值按照正负数的形式翻译成二进制序列
- 反码: 在原码的基础上,符号位不变,其它位按位取反
- 补码: 在反码的基础上,加1
另外,我们还需知道:
- 在内存中,整型数据是按照补码进行存储的;
- 正整数的原码、反码和补码相同;
- 负整数的反码和补码,要在原码的基础上,按照规则计算出来。
3.2 大小端字节序的存储方式
3.2.1 大小端字节序是什么(What)
- 大端字节序存储:
把一个数据的低数值位,存放在高地址处;而高数值位,存放在低地址处。
- 小端字节序存储:
把一个数据的低数值位,存放在低地址处;而高数值位,存放在高地址处。
3.2.2 为什么会出现大小端字节序(Why)
我们知道,当创建一个整型变量,会在内存空间中开辟4个内存单元的空间;于是,当数据存储在内存中占用的空间超过1个字节,就无可避免地产生了如何安排多个字节顺序的问题。
编程习题:请设计一个小程序,判断当前机器的字节序。
参考代码:
int CheckSys()
{
int a = 1;
return *(char*)&a; // 取出第一个字节
}
int main()
{
/*int a = 1;*/
//00000000000000000000000000000001 - 二进制
//0x 00 00 00 01 - 十六进制
int ret = CheckSys();
if (ret)
{
printf("小端字节序\n");
}
else
{
printf("大端字节序\n");
}
}
3.3 浮点型数据在内存中的存储方式
3.3.1 IEEE 754
IEEE 754 是由美国IEEE(电气和电子工程协会),制定的二进位浮点数算术标准,是20世纪80年代以来最广泛使用的浮点数运算标准,为许多CPU与浮点运算器所采用。
IEEE 754规定,任何一个二进制浮点数V可以表示为如下形式:
: 表示符号位;当S=0时,为正数;当S=1时,为负数;
: 表示有效数字,取值范围为
;
: 表示指数位。
举个例子:
十进制的5.0,改写成二进制则为 101.0,相当于 1.01 * 2^2
按照IEEE 754规定的格式,此时,S=0 、M=1.01 、E=2。
3.3.2 32位浮点数在内存中的存储形式
对于32位的浮点数,最高的1位是符号位S,接着的8位是指数E,剩下的23位为有效数字M。
3.3.3 64位浮点数在内存中的存储形式
对于64位的浮点数,最高的1位是符号位S,接着的11位是指数E,剩下的52位为有效数字M。
3.3.4 有效数字M与指数E的一些特别规定
有效数字M
IEEE 754规定在保存M时,可以将第一位的1舍去,从而能够保存24位有效数字;
为什么呢(Why)?
前面提到过,M的取值范围为:,因次M总是可以写成 1.xxxxxx的形式, xxxxxx为小数部分;于是,IEEE 754规定,在计算机内部保存M时,默认这个数的第一位总是1,因此可以被舍去,只保存后面的小数部分。这样做的目的,是节省1位有效数字。
指数E在内存中的存储
指数E,在内存中是以无符号整型(unsigned int)的形式进行存储的;如果E为8位,则取值范围为;如果E为11为,则取值范围为
.
但我们知道,科学计数法的表示,是可以允许出现负数的。
为此,IEEE 754规定 存入内存时E的真实值必须再加上一个中间数,对于8位的E,这个中间数
是127;对于11位的E,这个中间数是1023。
指数E从内存中取出
- E不全为0或不全为1:
这时,浮点数就采用下面的规则表示,即指数E的计算值减去127(或1023),得到真实值,再将有效数字M前加上第一位的1;
- E全为0:
这时,浮点数的指数E等于1-127(或者1-1023)即为真实值;此时相当于,表示接近于0的很小的数;
- E全为1:
这时,如果有效数字M全为0,表示±无穷大(正负取决于符号位s)。
4. 对计算机运行机制的一瞥
4.1 计算机对数据的解读机制
我们先来看一段代码,如下:
int main()
{
char a = 128;
int n = 9;
float* pf = (float*)&n;
printf("%d\n", a);
printf("%u\n", a);
printf("\n");
printf("%f\n", *pf);
*pf = 9.0;
printf("%d\n", n);
printf("%f\n", *pf);
return 0;
}
运行结果:
分析如下:
char a = 128
128的二进制形式
00000000000000000000000010000000 - 原码
正整数的原码、反码与补码相同
00000000000000000000000010000000 - 128的补码
将128的补码,存储在char类型的变量中,要发生截断
10000000 - 变量a中保存的二进制序列
printf("%d\n", a)
%d 意味着将a中的二进制序列,以有符号的整型的方式进行打印
将10000000进行整型提升,以符号位进行扩充
11111111111111111111111110000000 - 补码
11111111111111111111111101111111 - 反码
10000000000000000000000010000000 - 原码
即为 -128
printf("%u\n", a)
%u 意味着将a中的二进制序列,以无符号的整型的方式进行打印
将10000000进行整型提升,以符号位进行扩充
11111111111111111111111110000000 - 补码
此时,因为是以无符号的整型的方式进行打印
于是,printf函数会将11111111111111111111111110000000看作为一个正整数的补码
而正整数的原码、反码与补码相同
于是printf将会,把11111111111111111111111110000000所对应的十进制的数值打印出来
即为 4294967168
int n = 9
9的二进制形式
00000000000000000000000000001001 - 原码、反码与补码
float* pf = (float*)&n
对取地址得到的int* 的指针变量,即n的地址,进行强制类型转换
转换为float* 类型的指针类型,并赋值给pf指针变量
printf("%f\n",*pf)
*pf 意味着对pf进行解引用,访问其指针指向的值,即n
%f 意味着以浮点数的形式,将n的值打印出来,于是printf函数,将以IEEE 754的标准来解读该二进制序列
0 - S(符号位) 00000000 -E(指数) 00000000000000000001001 - M(有效数字)
E为全0,即真实值为 1-127 = -126,为一个接近0的非常小的数
即打印出 0.00000
*pf = 9.0
将n的值,改为浮点数9.0
因为pf为float* 类型的指针变量,所以9.0,将以IEEE 754的标准进行存储
9.0的二进制形式
1001.0 -> 1.001 * 2^3
即 S = 0、 M = 1.001 、 E = 3(真实值) + 127 = 130 (存储值)
写成二进制序列为:0 10000010 00100000000000000000000
printf("%d\n", n)
%d 意味着以有符号的整型的形式对该二进制序列进行打印
即为 1091567616
printf("%f\n", *pf)
%f 意味着以浮点数的形式,将pf指向的值打印出来,即以IEEE 754的标准,对该二进制序列进行解读
即为 9.00000
结论:
由此,我们能够得出,数据以二进制的形式,存储在计算机的存储介质中;但影响我们所看到数据的最终结果,则取决于,我们对计算机下达的指令,即对存储在计算机存储介质中二进制序列的解读方式,如
- %u : 意味着告诉计算机,要以无符号整型的方式(即无符号位),对内存中的二进制序列,进行解读;
- %d :意味着告诉计算机,要以有符号整型的方式(即无、有符号位),对内存中的二进制序列,进行解读;
- %f : 意味着告诉计算机,要以IEEE 754的标准,对内存中的二进制序列,进行解读。
于是,同一个二进制序列,计算机指令不同,即解读的方式不同,我们最终得到的结果也将不同。
4.2 计算机对文件的解读机制
同理,存储在计算机中的各种文件,其本质也都为二进制文件,存储得也都是一串串由0、1排列组成的二进制序列;
关键就在于文件的后缀名,决定了对这些文件的解读方式;如.txt, 就意味着打开该文件之后,将以文本的形式,进行解读,对内容进行组织和呈现。
5. 小结
这篇文章,主要是对数据在内存中的存储方式进行了总结,重点要掌握整型数据是如何在内存中进行存储的,还有浮点型数据是如何在内存中进行存储的(IEEE 754);对于每一个开发者来说,这些都是必须要掌握的知识,就如同武林高手修炼内功一般;希望这篇文章,能够给读者带来收获!
IEEE 754在线计算器: IEEE-754 Floating Point Converter