深度剖析数据在内存中的存储

安梨

已于 2022-10-04 21:36:21 修改

阅读量289

点赞数

文章标签： c++ 算法开发语言

于 2022-10-04 00:01:15 首次发布

本文链接：https://blog.youkuaiyun.com/m0_60624580/article/details/127146222

版权

本文详细介绍了数据类型在内存中的存储方式，特别是整型和浮点型。讨论了原码、反码、补码的概念，并分析了大小端字节序对数据存储的影响。通过实例解析了浮点数在内存中的表示规则，帮助读者理解不同数据类型的内存占用和解析机制。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 数据类型介绍

基本的内置类型：

char     //字符数据类型
short    //短整型
int     //整形
long     //长整型
long long //更长的整形
float    //单精度浮点数
double    //双精度浮点数

C语言有没有字符串类型？

类型的意义：
1. 使用这个类型开辟内存空间的大小（大小决定了使用范围）
2. 如何看待内存空间的视角

C99标准中才引入了long long这种数据类型，所以在新的编译器下才能使用，在旧的例如VC6.0中不支持这种数据类型。
int在早期16位机器上是2个字节，在常见的32位机器上和当前的64位机器上都是4个字节。
C语言规定：sizeof（long）＞＝sizeof（int）
在当前编译器上int和long都是4个字节；
在新的编译器下还有long double这种数据类型；可以在网站上看到更多的C语言类型。
在C语言中有_bool类型（布尔类型），是专门用来表示真假的变量，因为早期才C语言用0表示假非0表示真，C99中才引入了这种类型，布尔类型的用法：_BOOL 变量——表示这个变量的真假，例如：_BOOL flag；变量在定义时成为布尔类型，如果希望变量初始值为假，可以初始化为false，：_BOO falg = false;false为假，使用_BOOL类型需要引＜stdbool.h>头文件。
其实在C语言中很少看到_BOOL类型，应用的很少。_BOOL类型本质上是int类型的重命名，即_BOOL本质上是int，只是把1和0定义为为true和false。C＋＋中有BOOL类型（写法不是_BOOL类型）。在有些编译器下不支持布尔类型。

#include <stdio.h>
#include <stdbool.h>
int main()
{
	printf("%d\n", sizeof(int));
	printf("%d\n", sizeof(long));
	int flag = false;
	int flag = true;
	if (flag)
	{
		printf("hello\n");
	}
}

1.1 类型的基本归类

整形家族：

char
unsigned char
signed char
short
unsigned short [int]
signed short [int]
int
unsigned int
signed int
long
unsigned long [int]
signed long [int]

char也是整形家族的一员。因为每一个字符变量存的是字符，字符的ASCII码值是这个字符的值（对应的数字）；long long类型也可以被认为是整形。
int a ＝ 10这里的int类型表示的a是有符号数。
一个数字有正负数，即有符号位。如果定义一个变量既可以存放负数又可以存放正数就把这个数定义为有符号数即可，所以这里的a可以被赋值为负数也可以被赋值为正数。unsigned int是无符号整数；signed int是有符号整形，所以int就等价于signed int。如果定义年龄这个变量可以定义为unsigned int age。无符号整形变量成对应的正数，不是里不可能存放负数，即使放了负数也会把它转换成对应的正数，不是去掉负号取绝对值，而是把它理解转换成为正整数。
short也分有符号短整形signed short [int]和无符号短整型unsigned short [int]，（方括号里的可以省略掉，long类型也是）其中short int就等价于signed short int，这里的int可以省略掉，即是short就等同于signed short，同样long也等价于signed long。

#include <stdio.h>
int main()
{
	int num = 10;
	printf("%d\n", num);//10

	num = -10;
	printf("%d\n", num);//-10
	return 0;
}

#include <stdio.h>
int main()
{
	unsigned int num = 10;
	printf("%d\n", num);//10

	num = -10;
	printf("%d\n", num);//-10
	return 0;
}//这里不能说明num既可以存放正数也可以存放负数

#include <stdio.h>
int main()
{
	unsigned int num = 10;
	printf("%u\n", num);//10

	num = -10;
	printf("%u\n", num);//4294967286
	return 0;
}

%d是用来打印有符号数的，既可以存负数又可以存正数。%u打印无符号整数。

~是按位取反操作符，是对二进制序列的所有位按位取反，包括符号位也要取反。

以上这三个和char类型不同：
char等价于signed char吗？
答案：不是。
char到底是signed char还是unsigned char是取决于编译器的实现的，常见的编译器下，char就是signed char。

浮点数家族：

float
double

构造类型：

数组类型
结构体类型 struct
枚举类型 enum
联合类型 union

指针类型

int *pi;
char *pc;
float* pf;
void* pv;

空类型：
void 表示空类型（无类型）
通常应用于函数的返回类型、函数的参数、指针类型。

2. 整形在内存中的存储

2.1 原码、反码、补码

计算机中的整数有三种表示方法，即原码、反码和补码。
三种表示方法均有符号位和数值位两部分，符号位都是用0表示“正”，用1表示“负”，而数值位
负整数的三种表示方法各不相同。
原码
直接将二进制按照正负数的形式翻译成二进制就可以。
反码
将原码的符号位不变，其他位依次按位取反就可以得到了。
补码

反码+1就得到补码。

正数的原、反、补码都相同。
对于整形来说：数据存放内存中其实存放的是补码。因为在计算机系统中，数值一律用补码来表示和存储。原因在于，使用补码，可以将符号位和数值域统一处理；
同时，加法和减法也可以统一处理（CPU只有加法器）此外，补码与原码相互转换，其运算过程
是相同的，不需要额外的硬件电路。

一个变量的创建是要在内存中开辟空间的。空间的大小是根据不同的类型而决定的。
那数据在所开辟内存中到底是如何存储的？

num只能存放无符号数，即使放的是负数，num也会把它解读为无符号数（正数），所以编译器会认为放在bum中的数是无符号数，解读的是补码。

-10
   原码：10000000000000000000000000001010
   反码：11111111111111111111111111110101
   补码：11111111111111111111111111110110
   补码计算：4,294,967,286

构造类型也叫自定义类型（自己可以创造）

数组是有类型的：

//定义一个数组：
int a[10];
//数组名：a
//数组类型：int [10]

数组类型是数组去掉数组类型剩下的部分。

int a[10];
//数组类型是：int [10]
int a[5];
//数组类型是：int [5]
	
//所以这是两个不同的数据类型

所以只要数组的元素个数和元素的数据类型其中一个发生变化都会使数组的类型发生变化。

联合类型，也叫联合体、共用体。

#include <stdio.h>
//第一个void不需要返回
void test(void)//第二个void表示此函数不需要传参。
{
	void* p;//指针类型是void*，是无具体类型的指针
}
int main()
{

	return 0;
}

#include <stdio.h>
void test(void)
{
	void* p;
}
int main()
{
	int a = test();//错误
	return 0;
}//显示错误：对于所有类型void非法
//void类型的值不能用于初始化int类型的实体

//没有返回所以无需接收，发生矛盾，所以是：
#include <stdio.h>
void test(void)
{
	void* p;
}
int main()
{
	test();//错误
	return 0;
}

#include <stdio.h>
int main()
{
	//观察a和b在内存中的布局和存储
	int a = 10;//0a 00 00 00
	int b = -10;// f6 ff ff ff（为什么呢？不是-10吗？）
	return 0;
}

原码变成补码和补码变成原码的方法一样：都可以是取反、+1

为什么数字是倒着存进内存中的呢？

——大小端字节序

2.2 大小端介绍

什么大端小端：
大端（存储）模式，是指数据的低位保存在内存的高地址中，而数据的高位，保存在内存的低地址
中；
小端（存储）模式，是指数据的低位保存在内存的低地址中，而数据的高位,，保存在内存的高地
址中。
为什么有大端和小端：
为什么会有大小端模式之分呢？这是因为在计算机系统中，我们是以字节为单位的，每个地址单元
都对应着一个字节，一个字节为8bit。但是在C语言中除了8 bit的char之外，还有16 bit的short型，32 bit的long型（要看具体的编译器），另外，对于位数大于8位的处理器，例如16位或者32位的处理器，由于寄存器宽度大于一个字节，那么必然存在着一个如何将多个字节安排的问题。因此就
导致了大端存储模式和小端存储模式。
例如：一个 16bit 的 short 型 x ，在内存中的地址为 0x0010 ， x 的值为 0x1122 ，那么 0x11 为
高字节， 0x22 为低字节。对于大端模式，就将 0x11 放在低地址中，即 0x0010 中， 0x22 放在高地址中，即 0x0011 中。小端模式，刚好相反。我们常用的 X86 结构是小端模式，而 KEIL C51 则为大端模式。很多的ARM，DSP都为小端模式。有些ARM处理器还可以由硬件来选择是大端模式还是小端模式。

写一个程序来判断当前机器的字节序。

#include <stdio.h>
int main()
{
	int a = 1;
	char* p = (char*)&a;//只访问一个字节，强制转换为char*类型指针
	if (1 == *p)
	{
		printf("小端\n");
	}
	else
	{
		printf("大端\n");
	}
	return 0;
}//小端

但是：

若是直接把a变量强制类型转换：

int a = 1;
char ch = (char)a;

注重：这种强制类型转换是会发生截断的，是把a变量4个字节（00 00 00 01）当中最低位的字节（01）截出来赋给ch，无论是大端存储还是小端存储都是把它最低位的字节放到ch中,则ch永远会是01，不可能是00，这种方式是错误的。

#include <stdio.h>
int main()
{
	int a = 1;
	char ch = (char)a;
	printf("%c\n", ch);
	return 0;
}//1

是从内存中拿到相关的数据，大小端存储是把数据放到内存存储之后才有的现象。

思路：

看a的所占4个字节中的第一个字节的内容，是1就是小端，是0就是大端。

怎么拿到4个字节中的第一个字节呢？——&a，取出一个（访问一个字节）则用char*类型。

因为&a是取出a的地址是int*类型，硬要赋给一个char*类型的变量，虽然可以放进去但是类型有差异，所以对&a进行强制类型转换。类型转换后p中的地址还是原来的地址，*p访问的就是第一个字节。

#include <stdio.h>
int check_sys()
{
	int a = 1;
	char* p = (char*)&a;
	if (1 == *p)
	{
		return 1;//小端
	}
	else
	{
		return 0;//大端
	}
}
//对此函数代码优化：
int check_sys()
{
	int a = 1;
	char* p = (char*)&a;
	return *p;
}
//再优化：
int check_sys()
{
	int a = 1;
	return *(char*)&a;
}
int main()
{
	int ret = check_sys();//约定一下:返回1是小端，返回0是大端
	if (1 == ret)
	{
		printf("小端\n");
	}
	else
	{
		printf("大端\n");
	}
	return 0;
}

注意：char类型是没有大小端字节序的。（字节顺序是以字节为单位的顺序，要建立在至少两个字节如：short、int的基础上）

2.3练习

看一段代码：

#include <stdio.h>
int main()
{
	char a = -1;
	signed char b = -1;
	unsigned char c = -1;
	printf("a=%d,b=%d,c=%d\n", a, b, c);
	return 0;
}//a=-1,b=-1,c=255

先写出由数据计算出的补码——然后发生截断——发生整型提升——计算值。

注意在计算原码、反码和补码时先看是否是正数，是正数就不用计算了。

#include <stdio.h>
int main()
{
	char a = -128;
	printf("%u\n", a);
	return 0;
}//4294967168

#include <stdio.h>
int main()
{
	char a = 128;
	printf("%u\n", a);
	return 0;
}//4294967168

#include <stdio.h>
int main()
{
	int i = -20;
	unsigned int j = 10;
	printf("%d\n", i + j);
	return 0;
}//-10

按照补码的形式进行运算，最后格式化成为有符号整数。

#include <stdio.h>
int main()
{
	unsigned int i;
	for (i = 9; i >= 0; i--)
	{
		printf("%u\n", i);
	}
	return 0;
}

i是无符号数字，不可能有负数，任何位都是有效位，任何值都大于等于0——陷入死循环

#include <stdio.h>
int main()
{
	char a[1000];
	int i;
	for (i = 0; i < 1000; i++)
	{
		a[i] = -1 - i;
	}
	printf("%d", strlen(a));
	return 0;
}//255

头文件#include <limits.h>点击转到文档可以看数据类型的取值范围。

\0d的ASCII码值是0，strlen()在求字符串的时候，要看\0。

#include <stdio.h>
unsigned char i = 0;
int main()
{
	for (i = 0; i <= 255; i++)
	{
		printf("hello world\n");
	}
	return 0;
}//死循环打印hello world

因为一个无符号的char类型的取值范围是0~255，所以它不可能存一个比255大的数字，所以恒满足i<255这个条件。

综上发现，当循环变量是无符号类型的时候很容易出错。

3. 浮点型在内存中的存储

常见的浮点数：
3.14159
1E10
浮点数家族包括： float、double、long double 类型

浮点数表示的范围：float.h中定义

头文件#include <float.h>

注意：

3.14159——字面浮点型

1E10——是科学计数法的表示方式，是1.0*10^10

在浮点数的后面可以加f，加f表示它是float类型，不加默认是double类型。

3.1 一道例题

#include <stdio.h>
int main()
{
	int n = 9;
	float* pFloat = (float*)&n;
	printf("n的值为：%d\n", n);
	printf("*pFloat的值为：%f\n", *pFloat);

	*pFloat = 9.0;
	printf("num的值为：%d\n", n);
	printf("*pFloat的值为：%f\n", *pFloat);
	return 0;
}//输出：
//n的值为：9
//* pFloat的值为：0.000000
//num的值为：1091567616
//* pFloat的值为：9.000000

以%f或者%lf打印默认小数点后面都有6位。

说明浮点型和整型在内存中存储方式不同。

3.2 浮点数存储规则

num 和 *pFloat 在内存中明明是同一个数，为什么浮点数和整数的解读结果会差别这么大？
要理解这个结果，一定要搞懂浮点数在计算机内部的表示方法。
详细解读：
根据国际标准IEEE（电气和电子工程协会） 754，任意一个二进制浮点数V可以表示成下面的形式：

(-1)^S * M * 2^E
(-1)^s表示符号位，当s=0，V为正数；当s=1，V为负数。
M表示有效数字，大于等于1，小于2。
2^E表示指数位。

举例来说：
十进制的5.0，写成二进制是 101.0 ，相当于 1.01×2^2 。
那么，按照上面V的格式，可以得出s=0，M=1.01，E=2。
十进制的-5.0，写成二进制是 -101.0 ，相当于 -1.01×2^2 。那么，s=1，M=1.01，E=2。
IEEE 754规定：
对于32位的浮点数，最高的1位是符号位s，接着的8位是指数E，剩下的23位为有效数字M。

对于64位的浮点数，最高的1位是符号位S，接着的11位是指数E，剩下的52位为有效数字M。

IEEE 754对有效数字M和指数E，还有一些特别规定。
前面说过， 1≤M<2 ，也就是说，M可以写成 1.xxxxxx 的形式，其中xxxxxx表示小数部分。
IEEE 754规定，在计算机内部保存M时，默认这个数的第一位总是1，因此可以被舍去，只保存后面的xxxxxx部分。比如保存1.01的时候，只保存01，等到读取的时候，再把第一位的1加上去。这样做的目的，是节省1位有效数字。以32位浮点数为例，留给M只有23位，将第一位的1舍去以后，等于可以保存24位有效数字。
至于指数E，情况就比较复杂。
首先，E为一个无符号整数（unsigned int）
这意味着，如果E为8位，它的取值范围为0~255；如果E为11位，它的取值范围为0~2047。但是，我们知道，科学计数法中的E是可以出现负数的，所以IEEE 754规定，存入内存时E的真实值必须再加上一个中间数，对于8位的E，这个中间数是127；对于11位的E，这个中间数是1023。比如，2^10的E是10，所以保存成32位浮点数时，必须保存成10+127=137，即10001001。

然后，指数E从内存中取出还可以再分成三种情况：
1、E不全为0或不全为1
这时，浮点数就采用下面的规则表示，即指数E的计算值减去127（或1023），得到真实值，再将
有效数字M前加上第一位的1。
比如：
0.5（1/2）的二进制形式为0.1，由于规定正数部分必须为1，即将小数点右移1位，则为
1.0*2^(-1)，其阶码为-1+127=126，表示为
01111110，而尾数1.0去掉整数部分为0，补齐0到23位00000000000000000000000，则其二进
制表示形式为:

0 01111110 00000000000000000000000

2、E全为0
这时，浮点数的指数E等于1-127（或者1-1023）即为真实值，
有效数字M不再加上第一位的1，而是还原为0.xxxxxx的小数。这样做是为了表示±0，以及接近于
0的很小的数字。

3、E全为1

这时，如果有效数字M全为0，表示±无穷大（正负取决于符号位s）；

解释前面的题目：
回到一开始的问题：为什么 0x00000009 还原成浮点数，就成了 0.000000 ？
首先，将 0x00000009 拆分，得到第一位符号位s=0，后面8位的指数 E=00000000 ，最后23位的有效数字M=000 0000 0000 0000 0000 1001。