scikit-learn中文文档-学习笔记一

本文是scikit-learn学习笔记的第一部分,介绍了机器学习中的监督和非监督学习概念,以及训练集和测试集的划分。通过示例详细讲解了如何使用scikit-learn加载内置数据集,如波士顿房价、鸢尾花、糖尿病等。同时,文章还提及了模型持久化、数据转换、参数更新等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

机器学习问题:
监督学习:数据带有我们想要预测的附加属性(各个属性已知)
1. 分类:样本属于两个或更多类,从标记得数据训练并能预测出未标记的数据类别;另一个因素是,数据是离散的,我们想要使用正确的类别来标记这些数据。
2. 回归:期望输出是一个或多个连续变量,则使用回归方法。比如预测人身高和体重的函数关系。

非监督学习:训练数据由没有任何相应属性的一组输入向量x组成,我们想要训练出向量X的数据都属于什么类别。这种问题的目标可能是在数据中发现类似示例的组,称为聚类,或者确定输入空间内的数据分布,称为 密度估计。当向量X是高维数据时,使用(主成分分析)PCA,拉普拉斯映射,矩阵奇异值分解SVD等方法降至二或三维,容易分析,可以做到可视化。

训练集和测试集:训练集是我们用于模型训练的数据,测试集是我们用于检验模型的的数据。在数据有限的条件下,怎么分配训练集和测试集也是一个知识点。

一. 加载数据

  1. 加载内部数据
    from sklearn import datasets
    datasets里的数据都含有两个对象(n_samples, n_features), dataset.data和dataset.target, dataset.images使用.
    (1). 加载波士顿房价数据集(regression):load_boston([return_X_y])
    (2). 加载鸢尾属植物数据集(classification):load_iris([return_X_y])
    (3). 加载糖尿病数据集(regression): load_diabetes([return_X_y])
    (4). 加载digits数据集(classification): load_diabetes([return_X_y])
    (5). load_linnerud([return_X_y]) :Load and return the linnerud dataset (multivariate regression).
    (6). load_wine([return_X_y]): Load and return the wine dataset (classification).
    (7). load_breast_cancer([return_X_y]): Load and return the breast cancer wisconsin dataset (classification).
    (8). 加载图片数据集: load_sample_images() Load sample images for image manipulation.
    load_sample_image(image_name) Load the numpy array of a single sample image

  2. 学习和预测<

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值