使用scikit-learn进行机器学习模型构建
1. scikit-learn中的数据表示
与机器学习多样的领域和应用不同,scikit-learn中的数据表示相对单一,许多算法期望的基本格式是一个样本和特征的矩阵。其底层数据结构是NumPy的 ndarray ,矩阵的每一行对应一个样本,每一列对应一个特征的值。
在机器学习数据集领域也有类似“Hello World”的存在,例如可追溯到1936年的鸢尾花(Iris)数据集。安装好scikit-learn后,你可以访问多个数据集,其中鸢尾花数据集包含150个样本,每个样本有四个特征,这些特征是对三种不同鸢尾花的测量值:
import numpy as np
from sklearn import datasets
iris = datasets.load_iris()
该数据集被封装为一个 Bunch 对象,它实际上是对字典的简单封装:
type(iris)
# sklearn.datasets.base.Bunch
iris.keys()
# ['target_names', 'data', 'target', 'DESCR', 'feature_names']
在 data 键下可以找到样本和特征的矩阵,并确认其形状:
type(iris.
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



