决策树学习记录---分裂信息

本文通过可视化方式探讨了分裂信息与特征值数量及样本分布的关系。实验表明,特征值越多,分裂信息越大;样本分布越均匀,分裂信息也越大。

分裂信息的探索:

分裂信息公式:,下面我对分裂信息进行一个可视化。

首先我假设有100个样本, 在不同的特征数目下,计算分裂信息,为了计算方便,在此我定义每个特征值下面的样本个数是相同的

代码:

import math
import matplotlib.pyplot as plt

x = [2, 4, 10, 20, 50, 100]     # 特征值个数初始化
y = []  # 对应不同特征值个数的分裂信息计算初始化

def caculate(total, num):
    '''
    total :样本总数
    num :特征值个数
    '''
    reve = total/num  #每个特征值下面的样本数
    return -(reve/total)*math.log(reve/total)*num

for i in range(len(x)):     # 计算y
    y.append(caculate(100, x[i]))
    
plt.figure()
plt.plot(x, y)
plt.xlabel('特征值个数')
plt.ylabel('分裂信息')
plt.show()

结果:

由以上结果大概可知:一个特征下面的特征值越多,这个特征的分裂信息就越大。

 

当然还有一个维度我并没有考虑进去, 那就是如果一个特征有同样数量的特征值,但是特征值下面的样本数不一样,那么分裂信息的值如何变化?

首先我假设,我有100个样本,某个特征下面有两个特征值,不同特征值对应的样本数从1-50变化,观察分裂信息如何变化。

代码:

import math
import matplotlib.pyplot as plt
import numpy as np

totalNum = 100  # 样本总数初始化为100
midNum = totalNum / 2   # 样本总数中值

x1 = np.arange(midNum+1)     # 特征值个数初始化
x1 = x1[1:]     # [1,2,3,4.....50]
x2 = 100 - x1  # 对应不同特征值个数的分裂信息计算初始化[99,98,97......50]
y = []
def caculate(total, num1, num2):
    '''
    total : 样本总数
    num1 : 特征值1样本个数
    num2 : 特征值2样本个数
    '''
    return -(num1/total)*math.log(num1/total) - (num2/total)*math.log(num2/total)

for i in range(len(x1)):     # 计算y
    y.append(caculate(100, x1[i], x2[i]))
    
plt.figure()
plt.plot(x1, y)
plt.xlabel('特征值样本数相似程度(->大)')
plt.ylabel('分裂信息')
plt.show()
 

  

由上图可知,当不同特征值的样本个数越接近, 分裂信息就越大。

 

转载于:https://www.cnblogs.com/ahochen/p/10844407.html

### 头歌平台中的决策树教程实例 头歌(Tougo)是一个专注于在线教育和技术实践的平台,提供了丰富的机器学习课程资源。以下是基于已知资料整理的内容,帮助理解头歌平台上可能涉及的决策树相关教学内容。 #### 决策树的基础概念 决策树是一种监督学习方法,广泛应用于分类和回归问题中。它通过一系列规则对数据进行分割,形成一棵树状结构[^1]。 - **节点**:表示特征或属性的选择点。 - **边**:代表从某个节点到其子节点的路径。 - **叶节点**:最终的预测结果所在位置。 #### 构建决策树的核心原理 构建决策树的关键在于选择最优的分裂准则,常见的指标包括信息熵、信息增益、信息增益率以及基尼指数[^2]。这些指标用于衡量某一特征对于目标变量的区分能力。 ##### 信息信息熵是度量随机事件不确定性的指标,定义如下: \[ H(D) = - \sum_{k=1}^{K} p_k \log_2(p_k) \] 其中 \(p_k\) 表示类别 \(k\) 的概率分布。 ##### 条件熵信息增益 条件熵描述了给定某些条件下剩余的信息不确定性,而信息增益则是原始熵减去条件熵的结果。ID3 算法利用信息增益作为分裂依据。 ```python import math def entropy(probabilities): """ 计算信息熵 """ return -sum([p * math.log2(p) for p in probabilities if p != 0]) # 示例计算 probs = [5/14, 4/14, 5/14] # outlook 取值的概率分布 print(f"Entropy: {entropy(probs)}") # 输出熵值 ``` ##### 基尼指数 CART 算法采用基尼指数来评估特征的重要性,其公式为: \[ Gini(D) = 1 - \sum_{k=1}^{K} (p_k)^2 \] #### 预剪枝后剪枝技术 为了防止过拟合,决策树通常会应用剪枝策略。预剪枝主要通过对模型参数设置约束实现,例如限制最大深度或最小样本数量;而后剪枝则是在完全生长后再移除不必要的分支。 #### 实战案例分析 假设我们有一组天气数据集,记录了不同气象条件下的活动情况。可以按照以下步骤完成决策树学习过程: 1. 数据准备阶段:加载并清洗数据; 2. 划分训练集测试集; 3. 使用 Scikit-Learn 库建立决策树模型; 4. 调整超参数优化性能; 5. 对新输入做出预测。 ```python from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 创建虚拟数据集 X = [['sunny', 'hot'], ['overcast', 'mild'], ['rainy', 'cool']] Y = ['no', 'yes', 'yes'] # 将字符串转换成数值编码... clf = DecisionTreeClassifier(criterion='gini') clf.fit(X_train, y_train) predictions = clf.predict(X_test) accuracy = accuracy_score(y_test, predictions) print(f'Accuracy: {accuracy}') ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值