10、使用scikit-learn进行机器学习模型构建

使用scikit-learn进行机器学习模型构建

1. scikit-learn中的数据表示

与机器学习多样的领域和应用不同,scikit-learn中的数据表示相对单一,许多算法期望的基本格式是一个样本和特征的矩阵。其底层数据结构是NumPy的 ndarray ,矩阵的每一行对应一个样本,每一列对应一个特征的值。

在机器学习数据集领域也有类似“Hello World”的存在,例如可追溯到1936年的鸢尾花(Iris)数据集。安装好scikit-learn后,你可以访问多个数据集,其中鸢尾花数据集包含150个样本,每个样本有四个特征,这些特征是对三种不同鸢尾花的测量值:

import numpy as np
from sklearn import datasets
iris = datasets.load_iris()

该数据集被封装为一个 Bunch 对象,它实际上是对字典的简单封装:

type(iris)
# sklearn.datasets.base.Bunch
iris.keys()
# ['target_names', 'data', 'target', 'DESCR', 'feature_names']

data 键下可以找到样本和特征的矩阵,并确认其形状:

type(iris.
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值