我认为,汇编中一切皆地址。
在c/c++使用很多的结构体,在汇编中是如何表示的呢?其实,在汇编中根本就没有什么结构体的概念,结构体本质就是一堆连在一起的数据。只不过有人把他们想象成一个整体,并以此产生结构体的概念,这与结构体中带有变长数组时候的情形一样:
其实上面这个结构体尾部带有的变长数组,data[0]与结构体Test没有任何关系,sizeof(Test)就知道。
结构体在汇编是如何表示的呢?
譬如如何访问Test中的x成员,其实就是采用地址偏移的方式,根据定义的Test对象的起始地址,偏移一定的大小就可以访问结构体中的不同成员了。
测试代码:
gcc -S xxxx
产生的汇编代码如下:
由c++filt 查看_ZN4TestC1Ev 知道为Test::Test(),也即Test结构体的构造函数,看看这个函数的具体情况,
movl 8(%ebp), %eax //把this指针的地址放入eax
然后看它如何给第一个成员变量赋值:
movl $0, (%eax) //将值0放入eax的值所对应的内存地址处,也就是给第一个成员变量赋值
同理:
movl 8(%ebp), %eax
movb $0, 4(%eax) //4(%eax)表示eax+4所对应的内存地址处,也就是第二个成员变量处
由以上分析就很明显了,汇编中访问结构体成员采用的是地址偏移的方式,其实c/c++等高级语言,编译之后都要转换成汇编代码,所以,结构体的底层访问,就是采用的地址偏移的方式。
注意:
结构体中有一个重要的概念,内存对齐,它会改变结构体成员变量的偏移值。
windows和linux都有默认的地址对齐大小,一般4字节,以利于cpu访问数据,因为cpu一般数据总线32位,可以一次访问4字节大小。
用#pragma pack(n) 可以改变内存对齐大小。
结构体内存对齐原则很复杂,特别是结构体中套一个结构体的时候,但是简单说来,有两点原则:
1,每个成员(基本数据类型,也就是int,bool,char等)的偏移值由两个数据决定:其数据类型所占大小(记为变量X),例如int型占4字节;
编译器设置的内存对齐大小,默认的,或是你通过上述指令设置的大小(记为变量Y),取两者中的较小值,得到数据Z。根据内存对齐原 则,该成员变量的偏移值必须是Z的倍数。
2,假如结构体中占内存最大的成员大小为M,则结构体总大小必须是M的倍数。
综上,用汇编要对结构体的内存模型很熟悉。