Linux Debugging（二）：熟悉AT&T汇编语言

最新推荐文章于 2025-07-26 10:18:41 发布

最新推荐文章于 2025-07-26 10:18:41 发布 · 231 阅读

文章标签：

#c/c++ #操作系统

本文详细对比了AT&T和Intel汇编语言的语法差异，包括寄存器命名、操作数顺序、常数/立即数的格式、操作数长度标识及寻址方式的不同，并通过一个数组最大值查找实例加深读者对于AT&T汇编语法的理解。

没想到《Linux Debugging:使用反汇编理解C++程序函数调用栈》发表了收到了大家的欢迎。但是有网友留言说不熟悉汇编，因此本书列了汇编的基础语法。这些对于我们平时的调试应该是够用了。

1 AT&T与Intel汇编语法对比

本科时候大家学的基本上都是Intel的8086汇编语言，微软采用的就是这种格式的汇编。GCC采用的是AT&T的汇编格式, 也叫GAS格式(Gnu ASembler GNU汇编器)。

1、寄存器命名不同

AT&T	Intel	说明
%eax	eax	Intel的不带百分号

2、操作数顺序不同

AT&T	Intel	说明
movl %eax, %ebx	mov ebx, eax	Intel的目的操作数在前,源操作数在后；AT&T相反

3、常数/立即数的格式不同

AT&T	Intel	说明
movl $_value,%ebx	mov eax,_value	Intel的立即数前面不带$符号
movl $0xd00d,%ebx	mov ebx,0xd00d	规则同样适用于16进制的立即数

4、操作数长度标识

AT&T	Intel	说明
movw %ax,%bx	mov bx,ax	Intel的汇编中, 操作数的长度并不通过指令符号来标识。 AT&T的格式中, 每个操作都有一个字符后缀, 表明操作数的大小. 例如:mov指令有三种形式: movb 传送字节 movw 传送字 movl 传送双字如果没有指定操作数长度的话，编译器将按照目标操作数的长度来设置。比如指令“mov %ax, %bx”，由于目标操作数bx的长度为word，那么编译器将把此指令等同于“movw %ax, %bx”。

5、寻址方式

AT&T	Intel	说明
imm32(basepointer, indexpointer, indexscale)	[basepointer + indexpointer*indexscale + imm32)	两种寻址的实际结果都应该是 imm32 + basepointer + indexpointer*indexscale

例如: 下面是一些寻址的例子：

AT&T	Intel	说明
mov 4(%ebp), %eax	mov eax, [ebp + 4]	基址寻址（Base Pointer Addressing Mode）,用于访问结构体成员比较方便，例如一个结构体的基地址保存在`eax`寄存器中，其中一个成员在结构体内的偏移量是4字节，要把这个成员读上来就可以用这条指令
`data_items(,%edi,4)`	[data_items+edi*4	变址寻址（Indexed Addressing Mode），访问数组
movl $addr, %eax	mov eax, addr	直接寻址（Direct Addressing Mode）
`movl (%eax), %ebx`	mov ebx, [eax]	间接寻址（Indirect Addressing Mode）,把`eax`寄存器的值看作地址，把内存中这个地址处的32位数传送到`ebx`寄存器
mov $12, %eax	mov eax, 12	立即数寻址（Immediate Mode）
mov $12, %eax	mov eax, 12	寄存器寻址（Register Addressing Mode

6.跳转方式不同

AT&T 汇编格式中，绝对转移和调用指令（jump/call）的操作数前要加上'*'作为前缀，而在 Intel 格式中则不需要。

AT&T	Intel	说明
jmp *%eax	jmp %eax	用寄存器%eax中的值作为跳转目标
jmp *(%eax)	jmp (%eax)	以%eax中的值作为读入的地址, 从存储器中读出跳转目标

2 求一个数组最大数

通过求一个数组的最大数，来进一步学习AT&T的语法

[cpp] view plain copy

#PURPOSE:Thisprogramfindsthemaximumnumberofa
#setofdataitems.
#
#VARIABLES:Theregistershavethefollowinguses:
#
#%edi-Holdstheindexofthedataitembeingexamined
#%ebx-Largestdataitemfound
#%eax-Currentdataitem
#
#Thefollowingmemorylocationsareused:
#
#data_items-containstheitemdata.A0isused
#toterminatethedata
#
.section.data#全局变量
data_items:#Thesearethedataitems
.long3,67,34,222,45,75,54,34,44,33,22,11,66,0
.section.text
.globl_start
_start:
movl$0,%edi#move0intotheindexregister
movldata_items(,%edi,4),%eax#loadthefirstbyteofdata
movl%eax,%ebx#sincethisisthefirstitem,%eaxis
#thebiggest
start_loop:#startloop
cmpl$0,%eax#checktoseeifwe'vehittheend
jeloop_exit
incl%edi#loadnextvalue
movldata_items(,%edi,4),%eax
cmpl%ebx,%eax#comparevalues
jlestart_loop#jumptoloopbeginningifthenew
#oneisn'tbigger
movl%eax,%ebx#movethevalueasthelargest
jmpstart_loop#jumptoloopbeginning
loop_exit:
#%ebxisthestatuscodeforthe_exitsystemcall
#anditalreadyhasthemaximumnumber
movl$1,%eax#1isthe_exit()syscall
int$0x80

汇编程序中以 .开头的名称并不是指令的助记符，不会被翻译成机器指令，而是给汇编器一些特殊指示，称为汇编指示（Assembler Directive）或伪操作（Pseudo-operation），由于它不是真正的指令所以加个“ 伪”字。 .section指示把代码划分成若干个段（Section），程序被操作系统加载执行时，每个段被加载到不同的地址，操作系统对不同的页面设置不同的读、写、执行权限。 .data段保存程序的数据，是可读可写的，相当于C++程序的全局变量。

.text段保存代码，是只读和可执行的，后面那些指令都属于.text段。

.long指示声明一组数，每个数占32；.quad类似，占64位；.byte是8位；.word 是16位。.ascii，例如.ascii "Hello world"，声明11个数，取值为相应字符的ASCII码。

参考资料：

1. 最简单的汇编程序

2. 第二个汇编程序

3. http://blog.chinaunix.net/uid-27717694-id-3942757.html

最后复习一下lea命令：

mov 4(%ebp) %eax #将%ebp+4地址处所存的值，mov到%eax

leal 4(%ebp) %eax #将%ebp+4的地址值， mov到%eax

leal 可以被mov取代：

addl $4, %ebp

mov. %ebp, %eax

Linux Debugging（二）： 熟悉AT&T汇编语言

1 AT&T与Intel汇编语法对比

2 求一个数组最大数

Linux Debugging（二）：熟悉AT&T汇编语言