sklearn API算法基础（决策树、随机森林）

自然color

已于 2022-07-19 21:03:47 修改

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏： Python笔记文章标签：决策树算法 sklearn

于 2022-07-19 19:36:43 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_46955575/article/details/125876313

Python笔记专栏收录该内容

24 篇文章

订阅专栏

本文详细介绍了sklearn库中的决策树算法，包括信息增益、基尼系数等划分依据，以及CART算法的选择。通过泰坦尼克号乘客生存分类案例展示了决策树的应用。同时，探讨了决策树的优缺点，如易过拟合和不稳定性。接着，文章深入讲解了随机森林的构建过程，解释了随机森林如何通过集成多个决策树来提高分类性能，讨论了随机森林的API参数如树的数量和最大深度，并列举了其优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.决策树划分依据

信息增益

基尼系数（划分更仔细）

ID3：信息增益最大的准则

C4.5：信息增益比最大的准则

CART：

回归树: 平方误差最小

分类树: 基尼系数最小的准则在sklearn中可以选择划分的原则

1.1.sklearn决策树API

1.2 数据

数据：http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt

1.3决策树结构本地保存

1.4 决策树案例泰坦尼克号乘客生存分类

graphviz安装包以及原数据下载地址：

graphviz安装程序以及泰坦尼克号乘客数据.rar-机器学习文档类资源-优快云下载

import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz

def decision():
    '''
    决策树预测泰坦尼克号乘客生存分类
    :return:
    '''
    # 获取数据
    titan = pd.read_csv('./titan.csv')
    x = titan[['Pclass', 'Age', 'Sex']]
    y = titan['Survived']
    print(x)

    # 缺失值处理
    x['Age'].fillna(x['Age'].mean(), inplace=True)
    # 分割数据集
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)
    # 特征工程  特征里面是类别  进行one-hot编码

    dict = DictVectorizer(sparse=False)

    x_train = dict.fit_transform(x_train.to_dict(orient='records'))
    print(dict.get_feature_names())
    x_test = dict.transform(x_test.to_dict(orient='records'))
    print(x_train)

    # 用决策树进行预测
    dec = DecisionTreeClassifier()
    dec.fit(x_train, y_train)
    # 预测准确率
    print("预测准确率:", dec.score(x_test, y_test))
    # 导出决策树结构
    export_graphviz(dec, out_file='./tree.dot', feature_names=['Age', \
'Pclass', 'Sex=female', 'Sex=male'])
    return None

if __name__=='__main__':
    decision()

1.5决策树优缺点

优点：

简单的理解和解释，树木可视化。

需要很少的数据准备，其他技术通常需要数据归一化

缺点：

决策树学习者可以创建不能很好地推广数据的过于复杂的树，这被称为过拟合。

决策树可能不稳定，因为数据的小变化可能会导致完全不同的树被生成

改进：减枝cart算法、随机森林

2. 随机森林

随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定

2.1 随即森林建立多个决策树的过程

N个样本 M个特征

1.随机在n个样本中选一个样本，重复N次，样本有可能重复

2.随即在M个特征中选m个特征

最终多个决策树样本，特征大多不一样

bootstrap随机有放回抽样。

2.2 随机森林API（集成学习）

树的数量：120，200，300，500，800，1200

最大深度：5，8，15,25,30

2.3 案例

import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.ensemble import RandomForestClassifier
def decision():
    '''
    决策树预测泰坦尼克号乘客生存分类
    :return:
    '''
    # 获取数据
    titan = pd.read_csv('./titan.csv')
    x = titan[['Pclass', 'Age', 'Sex']]
    y = titan['Survived']
    print(x)

    # 缺失值处理
    x['Age'].fillna(x['Age'].mean(), inplace=True)
    # 分割数据集
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)
    # 特征工程  特征里面是类别  进行one-hot编码

    dict = DictVectorizer(sparse=False)

    x_train = dict.fit_transform(x_train.to_dict(orient='records'))
    print(dict.get_feature_names())
    x_test = dict.transform(x_test.to_dict(orient='records'))
    # print(x_train)
    #
    # # 用决策树进行预测
    # dec = DecisionTreeClassifier()
    # dec.fit(x_train, y_train)
    # # 预测准确率
    # print("预测准确率:", dec.score(x_test, y_test))
    # # 导出决策树结构
    # export_graphviz(dec, out_file='./tree.dot', feature_names=['Age', \
'Pclass', 'Sex=female', 'Sex=male'])
    # 随机森林进行预测（超参数调优）
    rf = RandomForestClassifier()
    # 网格搜索交叉验证
    param = {'n_estimators': [120, 200, 300, 500], 'max_depth': [5, 8, 15, 25]}
    gc = GridSearchCV(rf, param_grid=param, cv=2)
    gc.fit(x_train, y_train)
    print("测试集上准确率：", gc.score(x_test, y_test))

    print("选择最好的模型：", gc.best_params_)


    return None

if __name__=='__main__':
    decision()