17、决策树算法及其在Windows恶意软件分类中的应用

最新推荐文章于 2025-11-24 14:25:22 发布

Python

最新推荐文章于 2025-11-24 14:25:22 发布

阅读量22

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习赋能网络安全文章标签：决策树 CART ID3

本文链接：https://blog.youkuaiyun.com/python/article/details/152582619

机器学习赋能网络安全专栏收录该内容

20 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

决策树算法及其在Windows恶意软件分类中的应用

1. 决策树算法概述

决策树是一种常用的机器学习算法，在分类和回归任务中都有广泛应用。下面将介绍几种常见的决策树算法。

2. 分类与回归树（CART）

CART（Classiﬁcation and Regression Trees）是一种简单的决策树算法，它可以处理分类和回归问题。分类树用于产生分类目标变量并识别其标签，回归树则用于产生连续目标变量并预测其值。CART模型以二叉树的形式表示。

2.1 CART算法的停止条件

遍历完数据集中的最小记录数。
数据集中的大部分记录已分配到节点。
达到最大的分裂层数。

当节点中只剩下一个样本、数据集中有重复记录或者节点完全纯净时，分裂将无法继续。

2.2 CART算法步骤

为每个特征找到最佳分裂点。如果训练数据集中每个特征有k个不同的值，那么可能的分裂数为k - 1。
在为每个特征找到最佳分裂点后，找到使分裂准则最大化的分裂点。
使用步骤2中找到的最佳分裂准则分裂节点，并从步骤1开始重复，直到满足停止准则。

CART使用基尼不纯度作为分裂准则。以下是CART算法的优缺点：

优点	缺点
易于解释	生成的树通常不稳定，输入数据的微小变化可能对树结构产生重大影响
输入变量中的异常值对CART影响不大	与其他模型相比，预测准确性较低
使用测试和交叉验证准确构建决策树
一个变量可以在树的不同部分多次使用，揭示不同变量集之间的复杂相互依赖关系
可与其他预测机器学习技术一起用于选择输入变量
无需数据转换
可以使用包含分类和连续变量的输入数据集构建树
可作为集成方法，例如将决策树选择的变量输入到神经网络中

2.3 CART算法的剪枝

CART算法生成的决策树往往比实际需要的更大，因此需要进行剪枝以找到最优树。CART使用测试数据或X折交叉验证来确定能有效分类未知样本的最佳树。剪枝步骤如下：
1. 将训练数据随机分成X折。
2. 在X - 1折的不同组合上训练X棵树，并每次计算第X折的估计误差。
3. 使用X次误差测量的平均值来计算决策树的准确性。
4. 使用复杂度惩罚等参数来最小化步骤3中的误差。复杂度参数控制树的大小并选择最优树。如果在当前节点位置向决策树添加另一个变量的成本超过复杂度参数的值，则停止构建树。
5. 使用步骤4中获得的数据和参数重新拟合树。

3. 迭代二分器3（ID3）

ID3（Iterative Dichotomizer 3）是一种用于从任何数据集生成决策树的算法，由Ross Quinlan于1983年开发。它通过对数据集进行自顶向下的贪心搜索，在树的每个节点测试每个属性，以找到最佳属性。在每次迭代中，算法使用熵和信息增益等不同指标选择最佳分裂属性。

3.1 ID3算法步骤

将数据集D指定为根节点。
在每次迭代中，算法为数据集D的每个未使用属性计算熵和信息增益。
选择熵最小或信息增益最大的属性。
使用选定的属性分裂数据集，生成数据集的子集。
对于所有之前未使用的属性，对每个子集继续上述步骤。

树的叶节点（也称为终端节点）表示该分支子集的标签，而非终端节点表示用于进行分裂的选定属性。

3.2 熵计算步骤

首先计算数据集的大小，即数据集中样本的总数。
将样本的标签存储到字典中。
对于每个标签Li，计算其概率P(Li)。
计算熵并返回数据集的最终熵。

3.3 选择最佳分裂属性步骤

找出数据集中的特征数量。
调用熵计算函数，并将信息增益变量初始化为零。
对于特征集中的每个特征，将对应于该特征的所有值存储在数组中。
使用set()函数从特征集中获取唯一值。集合是一个有序的集合，其中每个元素都是唯一的。
将两个变量熵和属性熵初始化为零。
使用特征集中的每个属性对数据集进行分裂，并计算当前创建的子树的概率。同时，计算用于分裂的属性的熵。
计算信息增益并返回信息增益最大的属性。

3.4 分裂数据集步骤

为了分裂数据集，我们使用该数据集、属性索引和属性值。属性索引和属性值对应于信息增益最大的属性。
通过遍历数据集中的每条记录，使用选定的属性分裂数据集。

最后，将树保存为列表结构并返回。构建决策树后，可用于预测未知样本的标签。

ID3算法的缺点包括过拟合问题严重、决策时每次只考虑一个属性导致计算时间长、通常生成的树不是最小可能的树以及对连续数据的分类非常繁琐等。

4. C4.5算法

C4.5是Ross Quinlan开发的ID3算法的扩展，它使用增益比来构建决策树。与ID3算法类似，C4.5也面临过拟合问题，但它支持剪枝来解决过拟合问题。C4.5的主要优点是能够对连续和离散值进行分类。

4.1 C4.5算法的优缺点

优点	缺点
易于实现和解释	对于小训练数据集效果不佳
能有效处理缺失值和过拟合问题
通过对输入数据进行微小变化，容易操作使用C4.5算法构建的树

C4.5和ID3的一个相似之处是，它们都使用熵度量作为分裂函数。

5. 决策树在Windows恶意软件分类中的应用

为了更实际地应用决策树算法，下面将展示如何使用决策树算法区分Windows恶意软件和良性软件。

5.1 数据集介绍

恶意和良性可执行文件在安装了Windows 7操作系统的系统中运行。通过观察对操作系统内核的API调用，捕获可执行文件的行为数据。样本在使用Cuckoo沙箱的虚拟机中运行，使用Python库编写的自定义包来捕获机器的活动。研究人员在卡迪夫大学研究门户上提供的CSV文件观察每个可执行文件的执行时间为5分05秒。为了便于处理，对观察值进行归一化，使得每个样本每个特征只有一条记录。使用的虚拟机规格为：2GB RAM、25GB存储和单核心CPU的Windows 7 64位系统。该实验共使用了594个良性和恶意样本。CSV文件的详细信息如下：
|字段|说明|
| ---- | ---- |
|sample_id|每个样本的标识符|
|vector|文件开始执行后的时间（秒）|
|malware|标签，1表示恶意软件，0表示良性软件|
|cpu_system|内核中运行的程序使用的CPU百分比|
|cpu_user|用户空间中运行的程序使用的CPU百分比|
|memory|当前内存中使用的字节数|
|swap|交换内存中使用的字节数|
|total_pro|运行的进程总数|
|max_pid|进程持有的最大进程ID|
|rx_bytes|接收的字节数|
|tx_bytes|发送的字节数|
|rx_packets|接收的数据包数|
|tx_packets|发送的数据包数|
|test_set|指示样本属于训练集还是测试集，“True”表示属于测试集，“false”表示属于训练数据集|

5.2 使用Python实现CART分类

以下是使用Python实现CART分类的代码：

import pandas as pd
from sklearn import metrics
from matplotlib import pyplot
from sklearn.metrics import roc_curve, auc, roc_auc_score
from sklearn import tree
from sklearn.metrics import classification_report, confusion_matrix
import seaborn
import graphviz
import os
from sklearn.cross_validation import train_test_split

# 加载数据集
data = pd.read_csv('data_1Normalised-final.csv')
y = data['malware']
X = data.drop('malware', axis=1)

# 进行数据分割并使用分类器对样本进行分类
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.7, random_state=None)
cls = tree.DecisionTreeClassifier()
cls.fit(X_train, y_train)
pred_labels = cls.predict(X_test)
print(confusion_matrix(y_test, pred_labels))
print(classification_report(y_test, pred_labels))

# 绘制ROC曲线并计算ROC曲线下的面积
fpr, recall, thresholds = roc_curve(y_test, pred_labels)
roc_auc = auc(fpr, recall)
pyplot.figure(figsize=(15, 6))
pyplot.plot(fpr, recall, 'b', label='AUC = %0.2f' % roc_auc, color='darkorange')
pyplot.title('Receiver Operating Characteristic curve', fontsize=20)
pyplot.legend(loc='lower right')
pyplot.plot([0, 1], [0, 1], color='navy', linestyle='--')
pyplot.xlim([0.0, 1.0])
pyplot.ylim([0.0, 1.0])
pyplot.ylabel('True Positive Rate', fontsize=20)
pyplot.xlabel('False Positive Rate', fontsize=20)
pyplot.show()
print("Area under the ROC curve is ")
print(roc_auc_score(y_test, pred_labels))

# 导出决策树为图形
dot_data = tree.export_graphviz(cls, out_file=None)
graph = graphviz.Source(dot_data)
graph.render("CART classification")

# 绘制混淆矩阵
class_names = [0, 1]
fig = pyplot.gcf()
cnf_matrix = metrics.confusion_matrix(y_test, pred_labels)
print(cnf_matrix)
seaborn.heatmap(cnf_matrix.T, square=True, annot=True, fmt='d',
                cbar=False, xticklabels=class_names,
                yticklabels=class_names,
                cmap='summer_r', annot_kws={"size": 20})
fig.set_size_inches(2, 2)
pyplot.xlabel('true_label', fontsize=20)
pyplot.ylabel('predicted_label', fontsize=20)

# 计算各种指标以评估分类器性能
print("Homogeneity: %0.6f" % metrics.homogeneity_score(y_test, pred_labels))
print("Completeness: %0.3f" % metrics.completeness_score(y_test, pred_labels))
print("V-measure: %0.3f" % metrics.v_measure_score(y_test, pred_labels))
print("Jaccard Similarity score : %0.6f" % metrics.jaccard_similarity_score(y_test, pred_labels, normalize=True, sample_weight=None))
print("Cohen’s Kappa : %0.6f" % metrics.cohen_kappa_score(y_test, pred_labels, labels=None, weights=None))
print("Hamming matrix : %0.06f" % metrics.hamming_loss(y_test, pred_labels, labels=None, sample_weight=None, classes=None))
print("Accuracy Score : %0.06f" % metrics.accuracy_score(y_test, pred_labels, normalize=True, sample_weight=None))
print("Precision Score : %0.06f" % metrics.precision_score(y_test, pred_labels, labels=None, pos_label=1, average='weighted', sample_weight=None))
print("Mean Absolute Error : %0.06f" % metrics.mean_absolute_error(y_test, pred_labels, sample_weight=None, multioutput='raw_values'))
print("F-Score : %0.06f" % metrics.f1_score(y_test, pred_labels, labels=None, pos_label=1, average='weighted', sample_weight=None))
print(metrics.classification_report(y_test, pred_labels))

CART分类的输出结果如下：
|指标|值|
| ---- | ---- |
|Area under the ROC curve|0.97|
|Homogeneity|0.831635|
|Accuracy score|0.973558|
|Precision score|0.974099|
|Mean absolute error|0.026442|
|F-score|0.973552|
|Completeness|0.832|
|V-measure|0.832|
|Jaccard similarity score|0.973558|
|Cohen’s Kappa|0.947123|
|Hamming matrix|0.026442|

分类报告如下：
|Labels|Precision|Recall|f1 score|Support|
| ---- | ---- | ---- | ---- | ---- |
|0|0.96|0.99|0.97|414|
|1|0.99|0.96|0.97|418|
|Avg/total|0.97|0.97|0.97|832|

混淆矩阵如下：
|True label|0|1|Total|
| ---- | ---- | ---- | ---- |
|Predicted label 0|410|18|428|
|Predicted label 1|4|400|404|
|Total|414|418|832|

从混淆矩阵可以推断出：
- 真正例（True Positive） = 410
- 真反例（True Negative） = 400
- 假正例（False Positive） = 18
- 假反例（False Negative） = 4

通过以上步骤和结果，可以清晰地看到如何使用CART算法对Windows恶意软件进行分类，并评估分类器的性能。接下来，将介绍如何使用Python实现CART回归。

5.3 使用Python实现CART回归

以下是使用Python实现CART回归的代码：

import pandas as pd
from sklearn import metrics
from matplotlib import pyplot
from sklearn.metrics import roc_curve, auc, roc_auc_score
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import classification_report, confusion_matrix
from sklearn import tree
import graphviz
import os
import seaborn

pyplot.style.use('ggplot')
seaborn.set(style='ticks')
os.environ["PATH"] += os.pathsep + 'C:/Program Files (x86)/Graphviz2.38/bin/'

# 加载数据集
data_Train = pd.read_csv('data_1Train.csv')
data_Test = pd.read_csv('data_1Test.csv')
X = data_Train.drop('malware', axis=1)
XX = data_Test.drop('malware', axis=1)
y = data_Train['malware']
yy = data_Test['malware']
X_train = X
X_test = XX
y_train = y
y_test = yy

# 创建并训练回归器
cls = DecisionTreeRegressor()
cls.fit(X_train, y_train)
pred_labels = cls.predict(X_test)

print("Predicted set of labels are : ")
print(pred_labels)
print("Actual set of labels are : ")
print(y_test)
print(confusion_matrix(y_test, pred_labels))
print(classification_report(y_test, pred_labels))

# 计算准确率
print("Accuracy Score : %0.06f" % metrics.accuracy_score(y_test, pred_labels, normalize=True, sample_weight=None))

# 绘制ROC曲线并计算ROC曲线下的面积
fpr, recall, thresholds = roc_curve(y_test, pred_labels)
roc_auc = auc(fpr, recall)
pyplot.figure(figsize=(15, 6))
pyplot.plot(fpr, recall, 'b', label='AUC = %0.2f' % roc_auc, color='darkorange')
pyplot.title('Receiver Operating Characteristic curve', fontsize=20)
pyplot.legend(loc='lower right')
pyplot.plot([0, 1], [0, 1], color='navy', linestyle='--')
pyplot.xlim([0.0, 1.0])
pyplot.ylim([0.0, 1.0])
pyplot.ylabel('True Positive Rate', fontsize=20)
pyplot.xlabel('False Positive Rate', fontsize=20)
pyplot.show()
print("Area under the ROC curve is ")
print(roc_auc_score(y_test, pred_labels))

# 导出决策树为图形
dot_data = tree.export_graphviz(cls, out_file=None)
graph = graphviz.Source(dot_data)
graph.render("dt-regr")

# 绘制混淆矩阵
class_names = [0, 1]
fig = pyplot.gcf()
cnf_matrix = metrics.confusion_matrix(y_test, pred_labels)
print(cnf_matrix)
seaborn.heatmap(cnf_matrix.T, square=True, annot=True, fmt='d',
                cbar=False, xticklabels=class_names,
                yticklabels=class_names,
                cmap='summer_r', annot_kws={"size": 20})
fig.set_size_inches(2, 2)
pyplot.xlabel('true_label', fontsize=20)
pyplot.ylabel('predicted_label', fontsize=20)

# 计算各种指标以评估回归器性能
print("Homogeneity: %0.6f" % metrics.homogeneity_score(y_test, pred_labels))
print("Completeness: %0.3f" % metrics.completeness_score(y_test, pred_labels))
print("V-measure: %0.3f" % metrics.v_measure_score(y_test, pred_labels))
print("Jaccard Similarity score : %0.6f" % metrics.jaccard_similarity_score(y_test, pred_labels, normalize=True, sample_weight=None))
print("Cohen’s Kappa : %0.6f" % metrics.cohen_kappa_score(y_test, pred_labels, labels=None, weights=None))
print("Hamming matrix : %0.06f" % metrics.hamming_loss(y_test, pred_labels, labels=None, sample_weight=None, classes=None))
print("Accuracy Score : %0.06f" % metrics.accuracy_score(y_test, pred_labels, normalize=True, sample_weight=None))
print("Precision Score : %0.06f" % metrics.precision_score(y_test, pred_labels, labels=None, pos_label=1, average='weighted', sample_weight=None))
print("Mean Absolute Error : %0.06f" % metrics.mean_absolute_error(y_test, pred_labels, sample_weight=None, multioutput='raw_values'))
print("F-Score : %0.06f" % metrics.f1_score(y_test, pred_labels, labels=None, pos_label=1, average='weighted', sample_weight=None))
print(metrics.classification_report(y_test, pred_labels))

CART回归的输出结果如下：
|指标|值|
| ---- | ---- |
|Area under the ROC curve|0.96|
|Homogeneity|0.765912|
|Accuracy score|0.961783|
|Precision score|0.961791|
|Mean absolute error|0.038217|
|F-score|0.961781|
|Completeness|0.766|
|V-measure|0.766|
|Jaccard similarity score|0.961783|
|Cohen’s Kappa|0.923523|
|Hamming matrix|0.038217|

分类报告如下：
|Labels|Precision|Recall|f1 score|Support|
| ---- | ---- | ---- | ---- | ---- |
|0|0.96|0.97|0.96|401|
|1|0.96|0.96|0.96|384|
|Avg/total|0.96|0.96|0.96|785|

混淆矩阵如下：
|True label|0|1|Total|
| ---- | ---- | ---- | ---- |
|Predicted label 0|387|16|403|
|Predicted label 1|14|368|382|
|Total|401|384|785|

从混淆矩阵可以推断出：
- 真正例（True Positive） = 368
- 真反例（True Negative） = 387
- 假正例（False Positive） = 14
- 假反例（False Negative） = 16

通过以上内容，我们详细介绍了几种常见的决策树算法（CART、ID3、C4.5），并展示了如何使用CART算法对Windows恶意软件进行分类和回归分析。这些算法在实际应用中具有重要价值，能够帮助我们解决各种分类和预测问题。

决策树算法及其在Windows恶意软件分类中的应用（续）

6. 决策树算法对比分析

为了更清晰地了解不同决策树算法的特点，下面对CART、ID3和C4.5算法进行对比分析。

算法	适用场景	优点	缺点
CART	分类和回归任务	易于解释，异常值影响小，可使用测试和交叉验证构建树，能揭示变量间复杂关系，可用于变量选择，无需数据转换，可处理多种类型变量，可作为集成方法	生成的树不稳定，预测准确性相对较低
ID3	从任何数据集生成决策树	能快速构建较小的决策树	存在过拟合问题，计算时间长，生成的树不一定最小，对连续数据分类繁琐
C4.5	分类任务，可处理连续和离散值	易于实现和解释，能处理缺失值和过拟合，可操作树结构	对小训练数据集效果不佳

通过这个对比表格，我们可以根据具体的问题和数据集特点选择合适的决策树算法。

7. 决策树算法流程总结

graph LR
    classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
    classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
    classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;

    A([开始]):::startend --> B{选择算法}:::decision
    B -->|CART| C(确定停止条件):::process
    B -->|ID3| D(指定根节点):::process
    B -->|C4.5| E(使用增益比构建树):::process
    C --> F(寻找最佳分裂点):::process
    F --> G(最大化分裂准则):::process
    G --> H(分裂节点并重复):::process
    H --> I{满足停止准则?}:::decision
    I -->|是| J(剪枝):::process
    I -->|否| F
    D --> K(计算熵和信息增益):::process
    K --> L(选择最佳属性):::process
    L --> M(分裂数据集):::process
    M --> N(对每个子集重复):::process
    E --> O(处理连续和离散值):::process
    O --> P(处理缺失值和过拟合):::process
    J --> Q([结束]):::startend
    N --> Q
    P --> Q

这个流程图总结了不同决策树算法的主要流程，从算法选择开始，经过一系列的处理步骤，最终完成决策树的构建和应用。

8. 决策树算法在恶意软件分类中的优势

决策树算法在Windows恶意软件分类中具有以下优势：
- 可解释性强 ：决策树的结构清晰，每个节点的分裂规则都可以直观地理解，这有助于安全专家分析恶意软件的特征和行为模式。
- 处理多种类型数据 ：可以处理包含分类和连续变量的数据集，如在恶意软件分类中，可以同时考虑CPU使用率、内存使用量等连续变量，以及文件类型等分类变量。
- 无需数据转换 ：不需要对数据进行复杂的预处理，如归一化、标准化等，减少了数据处理的工作量。

9. 决策树算法在恶意软件分类中的挑战

尽管决策树算法有很多优势，但在恶意软件分类中也面临一些挑战：
- 过拟合问题 ：如ID3和C4.5算法容易出现过拟合，导致模型在训练集上表现良好，但在测试集上的泛化能力较差。
- 树的稳定性 ：CART算法生成的树不稳定，输入数据的微小变化可能导致树结构的重大改变，影响分类的准确性。
- 恶意软件的演变 ：恶意软件不断演变，新的恶意软件可能具有与已知样本不同的特征和行为模式，这对决策树模型的适应性提出了挑战。

10. 未来改进方向

为了克服决策树算法在恶意软件分类中的挑战，可以考虑以下改进方向：
- 集成学习 ：将多个决策树组合成一个集成模型，如随机森林，提高模型的稳定性和泛化能力。
- 特征工程 ：提取更有代表性的特征，如使用深度学习方法自动提取恶意软件的特征，减少人工特征工程的工作量。
- 实时更新模型 ：随着恶意软件的演变，实时更新决策树模型，使其能够及时适应新的威胁。

通过以上对决策树算法的详细介绍、对比分析以及在Windows恶意软件分类中的应用展示，我们可以看到决策树算法在实际问题中具有重要的应用价值。同时，我们也认识到其存在的挑战和未来的改进方向。在实际应用中，我们应根据具体问题和数据集的特点选择合适的算法，并不断优化和改进模型，以提高分类的准确性和效率。