从反汇编理解堆栈及printf

最新推荐文章于 2025-09-09 09:02:45 发布

原创最新推荐文章于 2025-09-09 09:02:45 发布 · 2.3k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#汇编 #栈

c++相关专栏收录该内容

51 篇文章

订阅专栏

本文深入探讨了C语言中printf函数的参数传递顺序及其内部实现原理，解析了不同数据类型在栈中的存储方式，并通过具体实例解释了参数从右至左入栈的过程。

#include <stdio.h>
int main()
{
long long a = 1, b = 2, c = 3;
printf("%d %d %d\n", a,b,c);
return 0;
}

//Tencent某年实习生笔试题目

结果是：

1 0 2

Process returned 0 (0x0) execution time : 0.136 s
Press any key to continue.

该段转自：

http://blog.youkuaiyun.com/yang_yulei/article/details/8086934

sprintf/fprintf/printf/sscanf/fscanf/scanf等这一类的函数，它们的调用规则(calling conventions)是cdecl，cdecl调用规则的函数，所有参数从右到左依次入栈，这些参数由调用者清除，称为手动清栈。被调用函数不会要求调用者传递多少参数，调用者传递过多或者过少的参数，甚至完全不同的参数都不会产生编译阶段的错误。函数参数的传递都是放在栈里面的，而且是从右边的参数开始压栈，printf()是不会对传递的参数进行类型检查的，它只有一个format specification fields的字符串，而参数是不定长的，所以也没办法对传递的参数做类型检查，也没办法对参数的个数进行检查。所以了，压栈的时候，参数列表里的所有参数都压入栈中了，它不知道有多少个参数，所以它都压栈。
所以对于问题1中的代码，压入栈之后应该是这样的：
栈里面压进去了三个数，a，b和c因为a占2*4个bytes，b占1*4个byte，所以现在栈里面有3*4个bytes。c、b先后压入栈，a最后压入栈。因为这是little endian，即每个数字的高字节在高地址，低字节在低地址。而栈的内存生长方向是从大到小的，也就是栈底是高地址，栈顶是低地址，所以a的低字节在低地址（低地址值为0x00000001，高地址值为0x00000000）。(有条件的同学可以在big endian的机器上验证一下)
那么输出的时候，format specification fields字符串其匹配栈里面的内容，首先一个%d取出4个bytes出来输出，然后后面又有一个%d再取出4个bytes出来打印。所以结果就是这样了。也就是说刚开始压入栈的b的值在输出的时候根本都没有用到，c更没用到。

printf在压栈时，对于长度小于32位的参数，自动扩展成32位（由CPU的位数决定的）。
故在根据格式串解释时，对于%c %hd这样的小于32位数据的格式串，系统也会自动提取32位数据解释，而不会提取8位或16位来解释。（因为你把人家压入的时候就规定了扩展成32位嘛），但输出结果仍是8位或者16位值
至于浮点参数压栈的规则：float(4 字节)类型扩展成double(8 字节)入栈。所以在输入时，需要区分float(%f)与double(%lf)，而在输出时，用%f即可。printf函数将按照double型的规则对压入堆栈的float(已扩展成double)和double型数据进行输出。

另附一段程序的反汇编作为理解；

0x00401334 push %ebp //ebp入栈作为保护
0x00401335 mov %esp,%ebp //栈顶地址给ebp，ebp是读取栈内容的寄存器
0x00401337 and $0xfffffff0,%esp
0x0040133A sub $0x40,%esp
0x0040133D call 0x401970 <__main>
0x00401342 movl $0x1,0x38(%esp) //栈底是0x1，+4空间是0x0
0x0040134A movl $0x0,0x3c(%esp)
0x00401352 movl $0x2,0x30(%esp)
0x0040135A movl $0x0,0x34(%esp)
0x00401362 movl $0x3,0x28(%esp)
0x0040136A movl $0x0,0x2c(%esp) //上面到main是按定义顺序入栈，这里是小头先入栈，后面会做调整
0x00401372 mov 0x28(%esp),%eax //以下为调整
0x00401376 mov 0x2c(%esp),%edx
0x0040137A mov %eax,0x14(%esp)
0x0040137E mov %edx,0x18(%esp) //按照大地址先入栈的顺序入栈，先入c
0x00401382 mov 0x30(%esp),%eax
0x00401386 mov 0x34(%esp),%edx
0x0040138A mov %eax,0xc(%esp)
0x0040138E mov %edx,0x10(%esp) //b
0x00401392 mov 0x38(%esp),%eax
0x00401396 mov 0x3c(%esp),%edx
0x0040139A mov %eax,0x4(%esp)
0x0040139E mov %edx,0x8(%esp) //最后入栈a，调整后的顺序是c b a，大地址在栈底，a最先定义可以先出栈
0x004013A2 movl $0x403024,(%esp)
0x004013A9 call 0x401be0 <printf> //下面是printf，就按之前的说明执行
0x004013AE mov $0x0,%eax
0x004013B3 leave
0x004013B4 ret