机器学习——决策树

秋汐657

已于 2023-11-20 18:06:28 修改

阅读量78

点赞数

文章标签：机器学习决策树人工智能

于 2023-11-06 19:58:00 首次发布

本文链接：https://blog.youkuaiyun.com/qq_60707366/article/details/134252914

版权

什么是决策树

决策树是一种常用的监督学习算法，用于分类和回归任务。它通过构建一棵树状结构，其中每个内部节点表示一个特征或属性的测试，每个分支代表测试的结果，每个叶子节点表示一个类别标签或回归值。

简单来说，决策树是一种机器学习模型，目标是通过树的分支来分隔数据，以便能够高效地对新样本进行分类或回归预测。

怎么实现决策树

1.数据准备：

收集训练数据，包括特征（属性）和相应的标签（类别或目标值）。

2.特征选择：

选择用于构建决策树的特征。通常，特征选择基于不纯度度量（例如基尼不纯度、信息增益、均方误差等），以找到最佳的分裂特征。

3.树的构建：

选择根节点：

选择根节点时，通常会考虑所有可用特征，并使用某个分裂准则来选择最佳特征。

分裂数据集：

根据选择的分裂特征，将数据集划分成多个子集，每个子集对应于分裂特征的不同取值。每个子集将成为决策树中的一个分支。

递归构建子树：

对于每个子集，递归地应用相同的构建过程，直到满足停止条件。

叶节点标记：

当满足停止条件时，为叶节点分配一个类别（对于分类问题）或目标值（对于回归问题），通常是该节点中样本的多数类别或样本的平均值。

4.进行预测：

使用训练好的决策树来对新数据进行分类或回归。

决策树的实现：

class TreeNode:
    def __init__(self, depth=0, max_depth=None):
        self.depth = depth
        self.max_depth = max_depth
        self.feature_index = None
        self.threshold = None
        self.left = None
        self.right = None
        self.value = None

    def fit(self, X, y):
        if self.depth == self.max_depth:
            self.value = np.mean(y)
            return

        num_samples, num_features = X.shape
        if num_samples <= 1:
            self.value = np.mean(y)
            return

        best_gini = 1.0
        for feature_index in range(num_features):
            feature_values = X[:, feature_index]
            unique_values = np.unique(feature_values)
            for threshold in unique_values:
                left_indices = feature_values <= threshold
                right_indices = feature_values > threshold
                if sum(left_indices) == 0 or sum(right_indices) == 0:
                    continue

                left_gini = gini(y[left_indices])
                right_gini = gini(y[right_indices])
                weighted_gini = (sum(left_indices) / num_samples) * left_gini + (sum(right_indices) / num_samples) * right_gini

                if weighted_gini < best_gini:
                    best_gini = weighted_gini
                    self.feature_index = feature_index
                    self.threshold = threshold

        if best_gini == 1.0:
            self.value = np.mean(y)
            return

        left_indices = X[:, self.feature_index] <= self.threshold
        right_indices = X[:, self.feature_index] > self.threshold
        self.left = TreeNode(self.depth + 1, self.max_depth)
        self.right = TreeNode(self.depth + 1, self.max_depth)
        self.left.fit(X[left_indices], y[left_indices])
        self.right.fit(X[right_indices], y[right_indices])

    def predict(self, X):
        if self.value is not None:
            return np.array([self.value] * len(X))

        predictions = np.zeros(len(X))
        left_indices = X[:, self.feature_index] <= self.threshold
        right_indices = X[:, self.feature_index] > self.threshold
        predictions[left_indices] = self.left.predict(X[left_indices])
        predictions[right_indices] = self.right.predict(X[right_indices])

        return predictions

def gini(y):
    if len(y) == 0:
        return 0
    p_i = np.bincount(y) / len(y)
    return 1 - np.sum(p_i ** 2)

import numpy as np

# 生成一些示例数据
X = np.array([[0], [1], [2], [3], [4], [5], [6], [7], [8], [9]])
y = np.array([0, 0, 0, 0, 0, 1, 1, 1, 1, 1])

# 创建决策树模型
max_depth = 3
tree = TreeNode(max_depth=max_depth)
tree.fit(X, y)

# 进行预测
X_test = np.array([[2.5], [7.5]])
predictions = tree.predict(X_test)
print(predictions)