Python - SkLearn库的使用

本文介绍了机器学习库Scikit-learn(SkLearn)的基础应用,包括数据预处理如标签编码和标准化,构建训练集和测试集。接着详细讲解了多种模型的建立,如KNN、朴素贝叶斯、决策树、逻辑回归、支持向量机、随机森林、Adaboost和GBDT。还涵盖了交叉验证和模型保存等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

SkLearn简介

即scikit-learn库,是当今最流行的机器学习算法库之一,可以用来解决分类和回归问题。

数据的预处理

from sklearn import preprocessing

标签编码

from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
X['a'] = encoder.fit_transform(X['a'])	# 学习并转换
# eg. 若X为鸢尾花数据集,a代表种类,那么a属性会自动置换为0,1,2,,,,

数据集的处理

  1. 标准化

公式为:(X-mean)/std 计算时对每个属性/每列分别进行。

将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。

from sklearn.preprocessing import Scale
X_scaled = scale(X)

StandardScaler类,使用该类的好处在于可以保存训练集中的参数(均值、方差)直接使用其对象转换测试集数据。

from sklearn
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值