10、使用scikit-learn进行机器学习模型构建-优快云博客

本文链接：https://blog.youkuaiyun.com/sand8/article/details/155052434

与机器学习多样的领域和应用不同，scikit-learn中的数据表示相对单一，许多算法期望的基本格式是一个样本和特征的矩阵。其底层数据结构是NumPy的 ndarray ，矩阵的每一行对应一个样本，每一列对应一个特征的值。

在机器学习数据集领域也有类似“Hello World”的存在，例如可追溯到1936年的鸢尾花（Iris）数据集。安装好scikit-learn后，你可以访问多个数据集，其中鸢尾花数据集包含150个样本，每个样本有四个特征，这些特征是对三种不同鸢尾花的测量值：

import numpy as np
from sklearn import datasets
iris = datasets.load_iris()

该数据集被封装为一个 Bunch 对象，它实际上是对字典的简单封装：

type(iris)
# sklearn.datasets.base.Bunch
iris.keys()
# ['target_names', 'data', 'target', 'DESCR', 'feature_names']

在 data 键下可以找到样本和特征的矩阵，并确认其形状：

type(iris.