8、统计与机器学习算法：决策树与支持向量机详解

决策树与支持向量机详解

最新推荐文章于 2025-12-04 22:32:08 发布

root9

最新推荐文章于 2025-12-04 22:32:08 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏：集成机器学习实战精讲文章标签：决策树支持向量机机器学习

本文链接：https://blog.youkuaiyun.com/root9/article/details/152550964

集成机器学习实战精讲专栏收录该内容

19 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

统计与机器学习算法：决策树与支持向量机详解

在机器学习领域，决策树和支持向量机是两种常用且强大的算法。本文将详细介绍这两种算法的原理、实现步骤以及如何避免过拟合问题，并通过具体的代码示例进行演示。

一、决策树算法

1. 关键概念

信息增益 ：信息增益越高，特征越好。它也被称为 Kullback - Leibler 散度，用于衡量两个关于同一变量的概率分布之间的差异。信息增益为 0 时，两个分布相等。算法会为所有特征计算信息增益，并选择信息增益最高的特征创建根节点，在每个节点都进行信息增益计算以选择该节点的最佳特征。
基尼指数 ：是衡量杂质程度的指标，可用于确定分割标准的最佳属性。基尼指数越低，杂质越少，效果越好。

2. 实现步骤

2.1 准备工作

首先，我们需要导入所需的库，并设置工作目录，读取数据集。数据集为 backorders.csv ，目标变量是 went_on_backorder ，用于识别产品是否缺货，其他 22 个变量为预测变量。

import os
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
f