二进制基础

最新推荐文章于 2025-12-30 16:19:32 发布

原创最新推荐文章于 2025-12-30 16:19:32 发布 · 797 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#c语言

一、程序的编译和链接

1.从C源代码到可执行文件的过程：

编译：由C语言代码生成汇编代码
汇编：由汇编代码生成机器码
链接：将多个机器码的目标文件链接成一个可执行文件

2.可执行文件

（广义）文件中的数据是可执行代码的文件；（狭义）文件中的数据是机器码的文件。

Windows：PE
可执行程序（.exe）、动态链接库（.dll)、静态链接库（.lib)
Linux:ELF
可执行程序（.out)、动态链接库（.so)、静态链接库（.a)

二、Linux下的可执行文件ELF

1.ELF的分类：

可重定位文件（relocatable）：编译器和汇编器产生的.o文件，被Linker所处理。
可执行文件（executable)：Linker对.o文件进行处理输出的文件，进程映像。
共享对象文件（shared object）:动态库文件.so。

2.ELF文件格式

ELF文件从概念上包含5个部分：

ELF header：描述体系结构和操作系统等基本信息，指出Program header table和Section header table在文件中的位置。
pection header table:指出各个segment的信息。
section header table：这个保存了所有的section的信息。
segment：各个段。
section：各个节区。

磁盘中的ELF（可执行文件）和内存中的ELF（进程内存映像）在格式上是一致的，但是在结构中存在差别：即在磁盘中以节的形式存储，在内存中以段的形式存储。对应关系如下图所示：相同功能的节放在一个段里。

三、进程虚拟地址空间

在磁盘中的文件载入内存时，会把文件中的各个section合并成为segment，然后os根据ELF Header中的控制信息把ELF文件以正确的形式在虚拟内存中登录下来。从而完成ELF文件到虚拟空间的映射。

虚拟空间的地址以字节编码：1Byte=8bits，常以16进制表示：0x3c=0011 1100，虚拟内存中的用户空间每个进程一份，虚拟内存的内核空间所有进程共享一份，虚拟内存mmap段中的动态链接库仅在物理内存中装载一份。

用户空间：每个应用程序只能使用自己的这份虚拟地址空间
内核空间：内核使用的虚拟地址空间，应用程序不能直接使用这份地址空间，但可以通过一些系统调用函数与其中的某些空间进行数据通信。
实际内存操作时，需要将虚拟地址映射到实际内存的物理地址，然后才进行实际的内存读写

动态存储区:不会存储在磁盘上生成进程的ELF文件里面，而是在载入内存后动态生成的数据。

静态存储区:一定会存在的而且会永恒存在、不会消失，这样的数据包括常量、常变量（const 变量）、静态变量、全局变量等，生命周期由程序开始编译至程序结束。

堆（stack）:进行函数调用控制流控制的

栈（heap）:提供给用户进行动态内存分配的

一个段包含多个节，段视图用于进程的内存区域的rwx权限划分，节视图用于ELF文件编译链接时与在磁盘上存储的的文件结构的组织。

代码段（Text segment）包含了代码与只读数据

.text 节：实行用户所定义的功能
.rodata 节
.hash 节
.dynsym 节
.dynstr 节
.plt节：解析动态链接函数的实际地址
rel.got 节

数据段（Data segment）包含了可读可写数据

.data 节：存放程序中已初始化的全局变量的一块内存区域
.dynamic 节
.got 节
.got.plt 节：用来保存plt节解析到动态链接函数的实际地址
.bss 节：只占用内存空间而不占用磁盘空间用来存放程序中未初始化的全局变量和静态变量的一块内存区域。

栈段（Stack segment）

局部变量全部存放在栈里

四、程序的装载与进程的执行

cpu和内存是计算机中最核心的部分，内存中保存了实际的代码数据（code）。

amd64寄存器结构

rax： 8Bytes
eax：4Bytes
ax： 2Bytes
ah： 1Bytes
al： 1Bytes

部分寄存器的功能

RIP：存放当前执行的指令的地址
RSP ：存放当前栈帧的栈顶地址
RBP ：存放当前栈帧的栈底地址
RAX ：通用寄存器，存放函数返回值

五、x86&amd64汇编简述

*vim下输入:%!xxd可以将文件转换成16进制显示；输入:%!xxd-r可以将文件还原成二进制