汇编中的结构体表示

最新推荐文章于 2025-10-13 10:00:16 发布

原创最新推荐文章于 2025-10-13 10:00:16 发布 · 5.9k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#汇编 #struct #gcc #编译器 #function #windows

Assembly 专栏收录该内容

4 篇文章

订阅专栏

本文探讨了在汇编语言中如何表示和访问C/C++中的结构体，指出结构体本质上是一堆连续的数据，成员的访问通过地址偏移实现。以一个具体的测试代码为例，展示了结构体成员在汇编代码中的赋值操作，并提到了内存对齐在结构体布局中的重要性，以及如何通过`#pragma pack(n)`调整内存对齐规则。

我认为，汇编中一切皆地址。

在c/c++使用很多的结构体，在汇编中是如何表示的呢？其实，在汇编中根本就没有什么结构体的概念，结构体本质就是一堆连在一起的数据。只不过有人把他们想象成一个整体，并以此产生结构体的概念，这与结构体中带有变长数组时候的情形一样：

struct Test { int x; char c; int cnt; int data[0]; Test() { x = 0; c = 0; cnt = 0; } };

其实上面这个结构体尾部带有的变长数组，data[0]与结构体Test没有任何关系，sizeof(Test)就知道。

结构体在汇编是如何表示的呢？

譬如如何访问Test中的x成员，其实就是采用地址偏移的方式，根据定义的Test对象的起始地址，偏移一定的大小就可以访问结构体中的不同成员了。

测试代码：

struct Test { int x; char pstr; int c; Test() { x = 0; pstr = 0; c = 0; } }; int main() { struct Test t; t.x = 3; t.c = 'x'; return 0; }

gcc -S xxxx

产生的汇编代码如下：

.file "struct.cpp" .section .text._ZN4TestC1Ev,"axG",@progbits,_ZN4TestC1Ev,comdat .align 2 .weak _ZN4TestC1Ev .type _ZN4TestC1Ev, @function _ZN4TestC1Ev: .LFB4: pushl %ebp .LCFI0: movl %esp, %ebp .LCFI1: movl 8(%ebp), %eax movl $0, (%eax) movl 8(%ebp), %eax movb $0, 4(%eax) movl 8(%ebp), %eax movl $0, 8(%eax) popl %ebp ret .LFE4: .size _ZN4TestC1Ev, .-_ZN4TestC1Ev .globl __gxx_personality_v0 .text .align 2 .globl main .type main, @function main: .LFB5: leal 4(%esp), %ecx .LCFI2: andl $-16, %esp pushl -4(%ecx) .LCFI3: pushl %ebp .LCFI4: movl %esp, %ebp .LCFI5: pushl %ecx .LCFI6: subl $20, %esp .LCFI7: leal -16(%ebp), %eax movl %eax, (%esp) call _ZN4TestC1Ev movl $3, -16(%ebp) movl $120, -8(%ebp) movl $0, %eax addl $20, %esp popl %ecx popl %ebp leal -4(%ecx), %esp ret .LFE5: .size main, .-main .ident "GCC: (GNU) 4.2.1" .section .note.GNU-stack,"",@progbits

由c++filt 查看_ZN4TestC1Ev 知道为Test::Test()，也即Test结构体的构造函数，看看这个函数的具体情况，

movl 8(%ebp), %eax //把this指针的地址放入eax

然后看它如何给第一个成员变量赋值：

movl $0, (%eax) //将值0放入eax的值所对应的内存地址处，也就是给第一个成员变量赋值

同理：

movl 8(%ebp), %eax

movb $0, 4(%eax) //4(%eax)表示eax+4所对应的内存地址处，也就是第二个成员变量处

由以上分析就很明显了，汇编中访问结构体成员采用的是地址偏移的方式，其实c/c++等高级语言，编译之后都要转换成汇编代码，所以，结构体的底层访问，就是采用的地址偏移的方式。

注意：

结构体中有一个重要的概念，内存对齐，它会改变结构体成员变量的偏移值。

windows和linux都有默认的地址对齐大小，一般4字节，以利于cpu访问数据，因为cpu一般数据总线32位，可以一次访问4字节大小。

用#pragma pack(n) 可以改变内存对齐大小。