二进制文件分析与逆向工程技巧
1. 二进制文件模式
1.1 数组
在十六进制编辑器中,有时能直观地识别出 16/32/64 位值的数组。例如,一个包含 12 通道信号(使用 16 位 ADC 数字化)的文件,其中 16 位值数组的每对字节中,第一个字节通常是 7 或 8,第二个字节则看似随机。
而典型的 MIPS 代码也是 32 位值的数组,因为每个 MIPS 指令(以及 ARM 在 ARM 模式或 ARM64 下的指令)大小为 32 位(即 4 字节)。通过观察截图能发现一定的模式。
1.2 稀疏文件
稀疏文件的数据分散在几乎为空的文件中,其中的空格字符实际上是零字节。这种文件常用于对 FPGA(如 Altera Stratix GX 设备)进行编程。虽然这类文件易于压缩,但在科学和工程软件中很受欢迎,因为在这些场景中,高效访问比紧凑性更重要。
1.3 压缩文件
压缩文件具有较高的熵,从视觉上看显得杂乱无章。这就是压缩和/或加密文件的外观特征。
1.4 CDFS
操作系统安装通常以 ISO 文件形式分发,这些文件是 CD/DVD 光盘的副本,使用的文件系统是 CDFS。在其中可以看到文件名与一些额外数据(如文件大小、指向其他目录的指针、文件属性等)混合在一起,这展示了典型文件系统的内部结构。
1.5 32 位 x86 可执行代码
32 位 x86 可执行代码的熵不是很高,因为某些字节出现的频率比其他字节更高。
1.6 BMP 图形文件
BMP 文件未经过压缩