sklearn -分类算法 -决策树

本文介绍了决策树的基础知识,包括信息熵和信息增益的概念。信息熵用于衡量数据的不确定性,而信息增益则用于确定最优特征划分。通过计算信息增益,可以构建决策树,将不确定性下降最大的特征放在树的前面。 sklearn库中的决策树API提供了如criterion(默认为'gini',可选'entropy')和max_depth等参数来控制决策树的构建。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

信息熵(香农提出)

在这里插入图片描述
= 每一种类别的概率 * log 概率 ,求和 ,再乘以 -1

信息熵 衡量不确定性,信息熵越小,不确定性也越小。信息熵越大,不确定性越大。



信息增益

表示得知特征A的信息之后,信息熵减少的程度。在这里插入图片描述
= 初始信息熵 – A条件信息熵

在这里插入图片描述

初始信息熵: 只看目标值 。是(9/15)和否(6/15)
初始信息熵 = -1 (9/15log 9/15+6/15* log 6/15 )
年龄信息熵 :青年(5 / 15) 中年(5 / 15) 老年(5 / 15)

年龄信息熵 = -1 * [ 5/15 * H(青年) + 5/15 * H(中年)+5/15 * H(老年) ]

H(青年) = -1 (2/5log 2/5 + 3/5*log 3/5)





决策树:把信息增益 越大的(不确定性下降越大的特征)放在树的越前面。

api :

from sklearn.tree import DecisionTreeClassifier
DecisionTreeClassifier(criterion=’gini’, max_depth=None,random_state=None)

criterion: 默认是’gini’系数,也可以选择信息增益’entropy’

max_depth:树的深度大小,

代码

import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.feature_extraction import DictVectorizer
def decision_tree
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值