【CSAPP 3.3~3.4】x86-64访问数据

最新推荐文章于 2024-06-05 12:30:34 发布

拉车看路

最新推荐文章于 2024-06-05 12:30:34 发布

阅读量599

点赞数

分类专栏：《深入理解计算机系统》文章标签： c语言

本文链接：https://blog.youkuaiyun.com/li1358159/article/details/130069314

版权

本文详细介绍了x86-64架构中数据的格式和访问方式，包括数据传送指令的使用，如MOVB、MOVW、MOVD、MOVDQ等，以及在不同数据大小操作中的零扩展和符号扩展。同时，文章讨论了寄存器的使用，栈数据的压入和弹出操作，并提供了若干练习题以加深理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 数据格式

在汇编语言层面，Intel用术语字word表示16位数据类型，双字double words表示32位数据类型，四字quad words表示64位数据类型。

这里字的概念和字长不一样，要注意区分。

下表给出了x86-64环境（64位机器+64位编译）下C语言的基本数据类型表示。

`C`声明	`Intel`数据类型	汇编代码后缀	字节大小
`char`	字节	`b`	`1`
`short`	字	`w`	`2`
`int`	双字	`l`	`4`
`long`	四字	`q`	`8`
`char *`	四字	`q`	`8`
`float`	单精度	`s`	`4`
`double`	双精度	`l`	`8`

此外还有不太常用的数据类型，如long long、long double。

大多数gcc生成的汇编代码指令都有一个字符的后缀，表面操作数的大小。例如：传送字节movb、传送字movw、传送双字movl、传送四字movq。
用后缀l表示双字，因为32位数被看成是长字long word。汇编代码也使用后缀l表示8字节双精度浮点数，这不会产生歧义，因为浮点数使用的是一组完全不同的指令和寄存器。

2. 访问信息

一个x86-64的CPU包含一组16个存储64位值的通用目的寄存器。这些寄存器用来存储整数数据和指针，它们的名字都以%r开头。
在这里插入图片描述
最初的8086中有8个16位寄存器，即%ax ~ %sp。扩展到IA32架构时，为了兼容旧架构，这些寄存器的标号扩展为%eax ~ %esp。扩展到64位时，原来的8个寄存器标号为%rax ~ %rsp，此外还增加了8个新的寄存器%r8 ~ %r15。

指令可以对这16个寄存器的低位字节中存放的不同大小的数据进行操作。字节级操作可以访问最低的字节，16位操作可以访问最低的2个字节，32位操作可以访问最低的4个字节，64位操作可以访问整个寄存器。

对于操作小于8字节数据的指令，寄存器中剩下的字节会怎样，有以下规则：

仅操作最低的1字节或2字节时，寄存器中其他的字节不变。
仅操作低4字节时，高4字节会被置0。

在常见的程序里，不同的寄存器扮演不同的角色。如%rsp用来指明运行时栈的结束位置。
有一组标准的编程规范控制着如何使用寄存器来管理栈、传递函数参数、存储函数的返回值，存储局部和临时数据。

2.1. 操作数指示符

大多数指令有一个或多个操作数，指示执行一个操作要使用的源数据值、目的位置。源数据可以以常数形式给出，或从寄存器或内存中读出。目的位置可以是寄存器或内存。因此操作数的类型有三种：

立即数，用来表示常数值。在ATT格式的汇编代码中，立即数的书写方式是$后面跟一个标准C表示法表示的整数，如$-577、$0xff、$010等。不同的指令允许的立即数值范围不同，汇编器会自动选择最紧凑的方式进行数值编码。
寄存器，表示某个寄存器的内容。使用16个寄存器的低1、2、4或8字节作为操作数。我们使用 $r_a$ 表示任意寄存器a，使用 $R[r_a]$ 表示该寄存器的值。这里将寄存器集合看成数组R，寄存器标号是数组下标。
内存引用，它会根据计算出来的地址访问某个内存位置。将内存看成一个很大的字节数组，我们用符号 $M_b[Addr]$ 表示对存储在内存中从地址Addr开始的b的字节的访问。通常省略下标b。