恶意软件检测 - 论文《lazy-binding control ﬂow graph and deep learning》阅读

本文链接：https://blog.youkuaiyun.com/u011698800/article/details/108273930

20200828 -

0. 引言

本篇文章介绍《Auto-detection of sophisticated malware using lazy-binding control ﬂow graph and deep learning》的阅读过程，因为本身对CFG的内容比较感兴趣，所以在此记录。

1. 论文概要

本篇论文发表于Elsevier2018年Computers & Security，从论文名字来看是一篇利用CFG和深度学习来进行恶意软件检测的内容。
摘要（经过自己阅读后凝练）：当前反病毒软件大多数还是使用基于指纹的方式，但是较为成熟的软件可以通过多态、拟态来伪装自己，现在有一种被称为DEC的方法，被恶意软件用来加壳或者调用外部代码。现在多采用基于行为的方式来针对这一问题进行检测，其中控制流程图作（CFG）作为一种捕获软件行为的代表性方式被重点研究。但是，现在又很多二进制分析软件所生成的CFG并不能非常准确的反映出DEC方法的行为。而且这种方法在生成CFG时需要耗费大量的时间。
因此该篇论文提出一种lazy-binding CFG的方法来反应DEC的行为，同时利用深度学习的方法实现图片分类。

从上述的描述来看，该篇论文并不是针对通用性的恶意软件检测，而是利用CFG的方法来检测使用了DEC方法的恶意软件。

2. 背景内容

使用模式匹配的方法，无法解决混淆的样本问题，所以学术界寄希望于一个能够捕获样本执行流程的模型；其中CFG被广泛应用。程序的CFG一个有向图，被个节点代表着原始文件的一个指令。（这里跟我的理解有点不一样，可能我直接把ida pro中生成的代码块形式的图当作CFG了，不过这里的确需要多看看其他的论文来验证一下）。
生成CFG的方法，可以采用IDA pro或者jakstab，不过这篇论文说这两种方法都不适用于混淆的方法。该篇论文使用了BE-PUM的方法，该方法在产生的CFG上，每个指令都带有相应的环境变量。

3. 关键方法

3.1 CFG的重构

如何从原始二进制文件中重构CFG是基于行为检测的第一步。针对这种DEC方法的恶意样本，因为IDA pro采用了一种绑定的手段（这个技术不是很理解，看来学习的东西很多啊），导致每个地址的指令是固定的，但是恶意样本可以在执行时对某处指令进行修改（这个可以实现吗，它能够知道自己的指令地址？还是说我没又理解透彻），这种就导致构造出来的CFG图不够准确。所以本篇论文中采用了BE-PUM的方法来重构这部分内容。