c/c++内存分配与内存对齐

最新推荐文章于 2025-11-10 11:18:42 发布

转载最新推荐文章于 2025-11-10 11:18:42 发布 · 1.1k 阅读

文章标签：

#struct #编译器 #数据结构 #windows #平台 #byte

C/C++ 专栏收录该内容

8 篇文章

订阅专栏

本文深入解析了程序内存分配原理，包括栈区、堆区、全局区等不同内存区域的特点及应用，并探讨了内存对齐的重要性及其对程序性能的影响。

转自：http://blog.youkuaiyun.com/cuibo1123/archive/2008/06/14/2547442.aspx

1 引言

操作系统的内存分配问题与内存对齐问题对于低层程序设计来说是非常重要的，对内存分配的理解直接影响到代码质量、正确率、效率以及程序员对内存使用情况、溢出、泄露等的判断力。而内存对齐是常常被忽略的问题，理解内存对齐原理及方法则有助于帮助程序员判断访问非法内存。

2 程序的内存分配问题

一、一般 C/C++ 程序占用的内存主要分为 5 种

1 、栈区（ stack ）：类似于堆栈，由程序自动创建、自动释放。函数参数、局部变量以及返回点等信息都存于其中。

2 、堆区（ heap ）：使用自由，不需预先确定大小。多数情况下需要由程序员手动申请、释放。如不释放，程序结束后由操作系统垃圾回收机制收回。

3 、全局区 / 静态区（ static ）：全局变量和静态变量的存储是区域。程序结束后由系统释放。

4 、文字常量区：常量字符串就是放在这里的。程序结束后由系统释放。

5 、程序代码区：既可执行代码。

例：

#include <stdio.h>

int quanju;/* 全局变量，全局区 / 静态区（ static ） */

void fun(int f_jubu); /* 程序代码区 */

int main(void)/**/

{

int m_jubu;/* 栈区（ stack ） */

static int m_jingtai;/* 静态变量，全局区 / 静态区（ static ） */

char *m_zifum,*m_zifuc = "hello";/* 指针本身位于栈。指向字符串 "hello" ，位于文字常量区 */

void (*pfun)(int); /* 栈区（ stack ） */

pfun=&fun;

m_zifum = (char *)malloc(sizeof(char)*10);/* 指针内容指向分配空间，位于堆区（ heap ） */

pfun(1);

printf("&quanju : %x/n",&quanju);

printf("&m_jubu : %x/n",&m_jubu);

printf("&m_jingtai: %x/n",&m_jingtai);

printf("m_zifuc : %x/n",m_zifuc);

printf("&m_zifuc : %x/n",&m_zifuc);

printf("m_zifum : %x/n",m_zifum);

printf("&m_zifum : %x/n",&m_zifum);

printf("pfun : %x/n",pfun);

printf("&pfun : %x/n",&pfun);

getch();

return 0;

}

void fun(int f_jubu)

{

static int f_jingtai;

printf("&f_jingtai: %x/n",&f_jingtai);

printf("&f_jubu : %x/n",&f_jubu);/* 栈区（ stack ） , 但是与主函数中 m_jubu 位于不同的栈 */

}

输出结果：

&f_jingtai: 404020

&f_jubu : 22ff40

&quanju : 404070

&m_jubu : 22ff74

&m_jingtai: 404010

m_zifuc : 403000

&m_zifuc : 22ff6c

m_zifum : 3d24e0

&m_zifum : 22ff70

pfun : 4013af

&pfun : 22ff68

分析：

堆区 :

m_zifum : 3d24e0

代码区 :

pfun : 4013af

局区 / 静态区（ static ） :

m_zifuc : 403000

&m_jingtai: 404010

&f_jingtai: 404020

&quanju : 404070

栈区 :

&f_jubu : 22ff40 fun 函数栈区

&pfun : 22ff68 主函数栈区

&m_zifuc : 22ff6c

&m_zifum : 22ff70

&m_jubu : 22ff74

二、堆和栈

1 申请方式

stack:

由系统自动分配。例如，声明在函数中一个局部变量 int b; 系统自动在栈中为 b 开辟空间

heap:

需要程序员手动申请，并指明大小，在 c 中，有 malloc 函数完成

如 p1 = (char *)malloc(10);

在 C++ 中用 new 运算符

如 p2 = (char *)malloc(10);

但是注意 p1 、 p2 本身是在栈中的。

2 申请后系统的响应

栈：只要栈的剩余空间大于所申请空间，系统将为程序提供内存，否则将报异常提示栈溢出。

堆：大多数操作系统有一个记录空闲内存地址的链表，当系统收到程序的申请时，会遍历该链表，寻找第一个空间大于所申请空间的堆结点，然后将该结点从空闲结点链表中删除，并将该结点的空间分配给程序，另外，对于大多数系统，会在这块内存空间中的首地址处记录本次分配的大小，这样，代码中的 free 函数才能正确的释放本内存空间。另外，由于找到的堆结点的大小不一定正好等于申请的大小，系统会自动的将多余的那部分重新放入空闲链表中。

3 申请大小的限制

栈：在 Windows 下 , 栈是向低地址扩展的数据结构，是一块连续的内存的区域。这句话的意思是栈顶的地址和栈的最大容量是系统预先规定好的，在 WINDOWS 下，栈的大小是 2M （也有的说是 1M ，总之是一个编译时就确定的常数），如果申请的空间超过栈的剩余空间时，将提示 overflow 。因此，能从栈获得的空间较小。

堆：堆是向高地址扩展的数据结构，是不连续的内存区域。这是由于系统是用链表来存储的空闲内存地址的，自然是不连续的，而链表的遍历方向是由低地址向高地址。堆的大小受限于计算机系统中有效的虚拟内存。由此可见，堆获得的空间比较灵活，也比较大。

4 申请效率的比较：

栈由系统自动分配，速度较快。但程序员是无法控制的。

堆是由程序员手动分配的内存，一般速度比较慢，而且容易产生内存碎片 , 不过用起来最方便 .

另外，在 WINDOWS 下，最好的方式是用 VirtualAlloc 分配内存，他不是在堆，也不是在栈是直接在进程的地址空间中保留一快内存，虽然用起来最不方便。但是速度快，也最灵活。

5 堆和栈中的存储内容

栈：在函数调用时，第一个进栈的是函数调用语句的下一条可执行语句的地址，然后是函数的各个参数，在大多数的 C 编译器中，参数是由右往左入栈的，然后是函数中的局部变量。注意静态变量是不入栈的。当本次函数调用结束后，局部变量先出栈，然后是参数，最后栈顶指针指向最开始存的地址，也就是函数中的下一条指令，程序由该点继续运行。

堆：一般是在堆的头部用一个字节存放堆的大小。堆中的具体内容由程序员安排。

6 存取效率的比较

char s1[] = "aaaaaaaaaaaaaaa";

char *s2 = "bbbbbbbbbbbbbbbbb";

aaaaaaaaaaa 是在运行时刻赋值的；

而 bbbbbbbbbbb 是在编译时就确定的；

但是，在以后的存取中，在栈上的数组比指针所指向的字符串 ( 例如堆 ) 快。

比如：

#include

void main()

{

char a = 1;

char c[] = "1234567890";

char *p ="1234567890";

a = c[1];

a = p[1];

return;

}

对应的汇编代码

: a = c[1];

00401067 8A 4D F1 mov cl,byte ptr [ebp-0Fh]

0040106A 88 4D FC mov byte ptr [ebp-4],cl

: a = p[1];

0040106D 8B 55 EC mov edx,dword ptr [ebp-14h]

00401070 8A 42 01 mov al,byte ptr [edx+1]

00401073 88 45 FC mov byte ptr [ebp-4],al

第一种在读取时直接就把字符串中的元素读到寄存器 cl 中，而第二种则要先把指针值读到 edx 中，在根据 edx 读取字符，显然慢了一些。

2 内存对齐问题

一、内存对齐的原因

大部分的参考资料都是如是说的：

1 、平台原因 ( 移植原因 ) ：不是所有的硬件平台都能访问任意地址上的任意数据的；某些硬件平台只能在某些地址处取某些特定类型的数据，否则抛出硬件异常。

2 、性能原因：数据结构 ( 尤其是栈 ) 应该尽可能地在自然边界上对齐。原因在于，为了访问未对齐的内存，处理器需要作两次内存访问；而对齐的内存访问仅需要一次访问。

二、对齐规则

每个特定平台上的编译器都有自己的默认“对齐系数” ( 也叫对齐模数 ) 。程序员可以通过预编译命令 #pragma pack(n) ， n=1,2,4,8,16 来改变这一系数，其中的 n 就是你要指定的“对齐系数”。

规则：

1 、数据成员对齐规则：结构 (struct)( 或联合 (union)) 的数据成员，第一个数据成员放在 offset 为 0 的地方，以后每个数据成员的对齐按照 #pragma pack 指定的数值和这个数据成员

自身长度中，比较小的那个进行。

2 、结构 ( 或联合 ) 的整体对齐规则：在数据成员完成各自对齐之后，结构 ( 或联合 ) 本身也要进行对齐，对齐将按照 #pragma pack 指定的数值和结构 ( 或联合 ) 最大数据成员长度中，比较小的那个进行。

3 、结合 1 、 2 可推断：当 #pragma pack 的 n 值等于或超过所有数据成员长度的时候，这个 n 值的大小将不产生任何效果。

三、试验

下面我们通过一系列例子的详细说明来证明这个规则

编译器： GCC 3.4.2 、 VC6.0

平台： Windows XP

典型的 struct 对齐

struct 定义：

#pragma pack(n) /* n = 1, 2, 4, 8, 16 */

struct test_t {

int a;

char b;

short c;

char d;

};

#pragma pack(n)

首先确认在试验平台上的各个类型的 size ，经验证两个编译器的输出均为：

sizeof(char) = 1

sizeof(short) = 2

sizeof(int) = 4

试验过程如下：通过 #pragma pack(n) 改变“对齐系数”，然后察看 sizeof(struct test_t) 的值。

1 、 1 字节对齐 (#pragma pack(1))

输出结果： sizeof(struct test_t) = 8 [ 两个编译器输出一致 ]

分析过程：

1) 成员数据对齐

#pragma pack(1)

struct test_t {

int a; /* 长度 4 > 1 按 1 对齐；起始 offset=0 0%1=0 ；存放位置区间 [0,3] */

char b; /* 长度 1 = 1 按 1 对齐；起始 offset=4 4%1=0 ；存放位置区间 [4] */

short c; /* 长度 2 > 1 按 1 对齐；起始 offset=5 5%1=0 ；存放位置区间 [5,6] */

char d; /* 长度 1 = 1 按 1 对齐；起始 offset=7 7%1=0 ；存放位置区间 [7] */

};

#pragma pack()

成员总大小 =8

2) 整体对齐

整体对齐系数 = min((max(int,short,char), 1) = 1

整体大小 (size)=$( 成员总大小 ) 按 $( 整体对齐系数 ) 圆整 = 8 /* 8%1=0 */ [ 注 1]

2 、 2 字节对齐 (#pragma pack(2))

输出结果： sizeof(struct test_t) = 10 [ 两个编译器输出一致 ]

分析过程：

1) 成员数据对齐

#pragma pack(2)

struct test_t {

int a; /* 长度 4 > 2 按 2 对齐；起始 offset=0 0%2=0 ；存放位置区间 [0,3] */

char b; /* 长度 1 < 2 按 1 对齐；起始 offset=4 4%1=0 ；存放位置区间 [4] */

short c; /* 长度 2 = 2 按 2 对齐；起始 offset=6 6%2=0 ；存放位置区间 [6,7] */

char d; /* 长度 1 < 2 按 1 对齐；起始 offset=8 8%1=0 ；存放位置区间 [8] */

};

#pragma pack()

成员总大小 =9

2) 整体对齐

整体对齐系数 = min((max(int,short,char), 2) = 2

整体大小 (size)=$( 成员总大小 ) 按 $( 整体对齐系数 ) 圆整 = 10 /* 10%2=0 */

3 、 4 字节对齐 (#pragma pack(4))

输出结果： sizeof(struct test_t) = 12 [ 两个编译器输出一致 ]

分析过程：

1) 成员数据对齐

#pragma pack(4)

struct test_t {

int a; /* 长度 4 = 4 按 4 对齐；起始 offset=0 0%4=0 ；存放位置区间 [0,3] */

char b; /* 长度 1 < 4 按 1 对齐；起始 offset=4 4%1=0 ；存放位置区间 [4] */

short c; /* 长度 2 < 4 按 2 对齐；起始 offset=6 6%2=0 ；存放位置区间 [6,7] */

char d; /* 长度 1 < 4 按 1 对齐；起始 offset=8 8%1=0 ；存放位置区间 [8] */

};

#pragma pack()

成员总大小 =9

2) 整体对齐

整体对齐系数 = min((max(int,short,char), 4) = 4

整体大小 (size)=$( 成员总大小 ) 按 $( 整体对齐系数 ) 圆整 = 12 /* 12%4=0 */

4 、 8 字节对齐 (#pragma pack(8))

输出结果： sizeof(struct test_t) = 12 [ 两个编译器输出一致 ]

分析过程：

1) 成员数据对齐

#pragma pack(8)

struct test_t {

int a; /* 长度 4 < 8 按 4 对齐；起始 offset=0 0%4=0 ；存放位置区间 [0,3] */

char b; /* 长度 1 < 8 按 1 对齐；起始 offset=4 4%1=0 ；存放位置区间 [4] */

short c; /* 长度 2 < 8 按 2 对齐；起始 offset=6 6%2=0 ；存放位置区间 [6,7] */

char d; /* 长度 1 < 8 按 1 对齐；起始 offset=8 8%1=0 ；存放位置区间 [8] */

};

#pragma pack()

成员总大小 =9

2) 整体对齐

整体对齐系数 = min((max(int,short,char), 8) = 4

整体大小 (size)=$( 成员总大小 ) 按 $( 整体对齐系数 ) 圆整 = 12 /* 12%4=0 */

5 、 16 字节对齐 (#pragma pack(16))

输出结果： sizeof(struct test_t) = 12 [ 两个编译器输出一致 ]

分析过程：

1) 成员数据对齐

#pragma pack(16)

struct test_t {

int a; /* 长度 4 < 16 按 4 对齐；起始 offset=0 0%4=0 ；存放位置区间 [0,3] */

char b; /* 长度 1 < 16 按 1 对齐；起始 offset=4 4%1=0 ；存放位置区间 [4] */

short c; /* 长度 2 < 16 按 2 对齐；起始 offset=6 6%2=0 ；存放位置区间 [6,7] */

char d; /* 长度 1 < 16 按 1 对齐；起始 offset=8 8%1=0 ；存放位置区间 [8] */

};

#pragma pack()

成员总大小 =9

2) 整体对齐

整体对齐系数 = min((max(int,short,char), 16) = 4

整体大小 (size)=$( 成员总大小 ) 按 $( 整体对齐系数 ) 圆整 = 12 /* 12%4=0 */

8 字节和 16 字节对齐试验证明了“规则”的第 3 点：“当 #pragma pack 的 n 值等于或超过所有数据成员长度的时候，这个 n 值的大小将不产生任何效果”。

4 结束语

内存分配与内存对齐是个很复杂的东西，不但与具体实现密切相关，而且在不同的操作系统，编译器或硬件平台上规则也不尽相同，虽然目前大多数系统 / 语言都具有自动管理、分配并隐藏低层操作的功能，使得应用程序编写大为简单，程序员不在需要考虑详细的内存分配问题。但是，在系统或驱动级以至于高实时，高保密性的程序开发过程中，程序内存分配问题仍旧是保证整个程序稳定，安全，高效的基础。

[ 参考文献及技术支持]

[1] Brian.W.Kerighan <the C programming language> 2004.1

[2] W.richard stevens <unix 环境高级编程 > 2006.10

[3]csdn 开发社区 c/c++ 版块提供技术支持

[4]50M 深蓝程序设计讨论组提供技术支持