统计与机器学习算法:决策树与支持向量机详解
在机器学习领域,决策树和支持向量机是两种常用且强大的算法。本文将详细介绍这两种算法的原理、实现步骤以及如何避免过拟合问题,并通过具体的代码示例进行演示。
一、决策树算法
1. 关键概念
- 信息增益 :信息增益越高,特征越好。它也被称为 Kullback - Leibler 散度,用于衡量两个关于同一变量的概率分布之间的差异。信息增益为 0 时,两个分布相等。算法会为所有特征计算信息增益,并选择信息增益最高的特征创建根节点,在每个节点都进行信息增益计算以选择该节点的最佳特征。
- 基尼指数 :是衡量杂质程度的指标,可用于确定分割标准的最佳属性。基尼指数越低,杂质越少,效果越好。
2. 实现步骤
2.1 准备工作
首先,我们需要导入所需的库,并设置工作目录,读取数据集。数据集为 backorders.csv ,目标变量是 went_on_backorder ,用于识别产品是否缺货,其他 22 个变量为预测变量。
import os
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
f
决策树与支持向量机详解
超级会员免费看
订阅专栏 解锁全文
1216

被折叠的 条评论
为什么被折叠?



