机器学习系列笔记十二: 决策树

机器学习系列笔记十二: 决策树

Intro

以招聘机器学习算法工程师为例子,对于一个应聘者的信息输入,决策的流程可以一个树结构来表示:

在这里插入图片描述

通过多级判断产生多个判断条件作为根节点,多个结果作为叶子节点,这样的过程就叫做决策树。通常我们把决策树的深度定义为获取最终结果的最大所需判断数。在上图中,最多通过三次判断就能将样本(应聘者信息)进行相应的分类,所以该决策树的深度为3.

以使用决策树对鸢尾花分类所得到的决策边界为例:

在这里插入图片描述

在每一个节点上选择每一个维度以及该维度相应的一个阈值,过程类似于OvR,每次都得出一个分类结果,最后得到所有分类结果。

什么是决策树

  • 非参数学习算法
  • 可以解决分类问题
  • 天然可以解决多分类问题
  • 也可以解决回归问题
  • 非常好的可解释性

构建决策树的关键问题

根节点是判断条件:if var(左半部分) > val(右半部分)

  • 每个根节点在哪个样本特征维度做划分,换言之各个根节点判断条件左半部分怎么设定

  • 某个维度在哪个阈值上做划分,换言之判断条件的右半部分如何设定

信息熵

信息熵在信息论中表示随机变量不确定度的度量,在信息论中认为不确定性越低的信息包含的信息量(信息熵)越大。

  • 熵越大,数据的不确定性越高
  • 熵越小,数据的不确定性越低

熵的计算公式如下:
H = − ∑ i = 1 k p i l o g ( p i ) H=-\sum^k_{i=1}p_ilog(p_i) H=i=1kpilog(pi)
对于只有p1–>A类,p2–>B类,该函数的图像如下:

在这里插入图片描述

可以看到,当样本是A类或B类相等=0.5时,此时该样本的不确定性最大,信息熵也为最大。

通过对信息熵的使用,可以解决构建决策树的关键问题:对所有的可能划分进行搜索,找到一个最好的划分,使得划分后信息熵最小。

使用信息熵寻找最优划分

使用scikit learn的决策树分类算法

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.tree import DecisionTreeClassifier
import warnings

warnings.filterwarnings("ignore")

iris = datasets.load_iris()
X = iris.data[:,2:]
y = iris.target
# 使用决策树分类器
dt_clf = DecisionTreeClassifier(max_depth=2,criterion="entropy")
dt_clf.fit(X,y)
DecisionTreeClassifier(class_weight=None, criterion='entropy', max_depth=2,
                       max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort=False,
                       random_state=None, splitter='best')

绘制决策边界

def plot_decision_boundary(model,axis):
    x0,x1 = np.meshgrid(
        np.linspace(axis[0],axis[1],int((axis[1]-axis[0])*100)).reshape(-1,1),
        np.linspace(axis[2],axis[3],int((axis[3]-axis[2])*100)).reshape(-1,1),
    )
    X_new = np.c_[x0.ravel(),x1.ravel()]
    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#EF9A9A','#FFF59D','#90CAF9'])
    plt.contourf(x0,x1,zz,linewidth=5,cmap=custom_cmap)
plot_decision_boundary(dt_clf,axis=[0.5,7.5,0,3])
plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.scatter(X[y==2,0],X[y==2,1]) 
plt.show()

在这里插入图片描述

模拟使用信息熵进行划分

from collections import Counter
from math import log
def entropy(y):
    counter=Counter(y)
    res = 0.0
    for num in counter.values():
        p = num / len(y)
        res += -p * log(p)
    return res
def split(X,y,d,value):
    """基于维度d与阈值value进行划分"""
    index_a = (X[:,d]<=value)
    index_b = (X[:,d]>value)
    return X[index_a],X[index_b],y[index_a],y[index_b]
def try_split(X,y):
    """寻找最佳划分"""
    best_entropy = float("inf")
    best_d,best_v = -1,-1
    for d in range(X.shape[1]):
        # 可选的阈值是维度d下每两个特征的均值
        sorted_index = np.argsort(X[:,d])
        for i in range(1,len(X)):
            if X[sorted_index[i-1],d]!=X[sorted_index[i],d]:
                v = (X[sorted_index[i-1],d]+X[sorted_index[i],d])/2
                x_L,x_r,y_L,y_r=split(X,y,d,v)
                e = entropy(y_L)+entropy(y_r)
                if e < best_entropy:
                    best_entropy,best_d,best_v=e,d,v
    return best_entropy,best_d,best_v
best_entropy,best_d,best_v = try_split(X,y)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值