机器学习系列笔记十二: 决策树_决策树的深度怎么算-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_41819729/article/details/107438329

机器学习系列笔记十二: 决策树

文章目录

机器学习系列笔记十二: 决策树

Intro

以招聘机器学习算法工程师为例子，对于一个应聘者的信息输入，决策的流程可以一个树结构来表示：

在这里插入图片描述

通过多级判断产生多个判断条件作为根节点，多个结果作为叶子节点，这样的过程就叫做决策树。通常我们把决策树的深度定义为获取最终结果的最大所需判断数。在上图中，最多通过三次判断就能将样本(应聘者信息)进行相应的分类，所以该决策树的深度为3.

以使用决策树对鸢尾花分类所得到的决策边界为例：

在这里插入图片描述

在每一个节点上选择每一个维度以及该维度相应的一个阈值，过程类似于OvR,每次都得出一个分类结果，最后得到所有分类结果。

什么是决策树

非参数学习算法
可以解决分类问题
天然可以解决多分类问题
也可以解决回归问题
非常好的可解释性

构建决策树的关键问题

根节点是判断条件：if var(左半部分) > val(右半部分)

每个根节点在哪个样本特征维度做划分，换言之各个根节点判断条件左半部分怎么设定
某个维度在哪个阈值上做划分，换言之判断条件的右半部分如何设定

信息熵

信息熵在信息论中表示随机变量不确定度的度量，在信息论中认为不确定性越低的信息包含的信息量(信息熵)越大。

熵越大，数据的不确定性越高
熵越小，数据的不确定性越低

熵的计算公式如下：
$H=-\sum^k_{i=1}p_ilog(p_i)$
对于只有p1–>A类，p2–>B类，该函数的图像如下：

在这里插入图片描述

可以看到，当样本是A类或B类相等=0.5时，此时该样本的不确定性最大，信息熵也为最大。

通过对信息熵的使用，可以解决构建决策树的关键问题：对所有的可能划分进行搜索，找到一个最好的划分，使得划分后信息熵最小。

使用信息熵寻找最优划分

使用scikit learn的决策树分类算法

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
import warnings

warnings.filterwarnings("ignore")

iris = datasets.load_iris()
X = iris.data[:,2:]
y = iris.target
# 使用决策树分类器
dt_clf = DecisionTreeClassifier(max_depth=2,criterion="entropy")
dt_clf.fit(X,y)

DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=2,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

绘制决策边界

def plot_decision_boundary(model,axis):
    x0,x1 = np.meshgrid(
        np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
        np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1),
    )
    X_new = np.c_[x0.ravel(),x1.ravel()]
    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    plt.contourf(x0,x1,zz,linewidth=5,cmap=custom_cmap)

plot_decision_boundary(dt_clf,axis=[0.5,7.5,0,3])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1]) 
plt.show()

在这里插入图片描述

模拟使用信息熵进行划分

from collections import Counter
from math import log
def entropy(y):
    counter=Counter(y)
    res = 0.0
    for num in counter.values():
        p = num / len(y)
        res += -p * log(p)
    return res

def split(X,y,d,value):
    """基于维度d与阈值value进行划分"""
    index_a = (X[:,d]<=value)
    index_b = (X[:,d]>value)
    return X[index_a],X[index_b],y[index_a],y[index_b]

def try_split(X,y):
    """寻找最佳划分"""
    best_entropy = float("inf")
    best_d,best_v = -1,-1
    for d in range(X.shape[1]):
        # 可选的阈值是维度d下每两个特征的均值
        sorted_index = np.argsort(X[:,d])
        for i in range(1,len(X)):
            if X[sorted_index[i-1],d]!=X[sorted_index[i],d]:
                v = (X[sorted_index[i-1],d]+X[sorted_index[i],d])/2
                x_L,x_r,y_L,y_r=split(X,y,d,v)
                e = entropy(y_L)+entropy(y_r)
                if e < best_entropy:
                    best_entropy,best_d,best_v=e,d,v
    return best_entropy,best_d,best_v

best_entropy,best_d,best_v = try_split(X,y)