作者:禅与计算机程序设计艺术
1.简介
Scikit-learn (读音 /səkɪ'leɪni/(英语),[德语: scikit learn] )是一个基于Python的开源机器学习库,它实现了许多分类、回归、聚类等常用机器学习算法。本文将介绍scikit-learn中最基础、最常用的算法——线性回归、Logistic回归、K近邻(KNN)算法以及决策树算法。并结合相应的Python代码示例,讲解这些算法的原理和特点。另外,还会介绍scikit-learn的一些特性,例如可扩展性、高效率、模块化、文档清晰、易于使用等。
2.基本概念术语说明
2.1 数据集(dataset)
数据集通常是指一个表格型的数据结构,其中每一行代表一个样本,每一列代表一个特征,每个值代表该特征对于该样本的值。在机器学习领域中,通常把每个样本称为观测或样本point,每个特征称为属性或feature。例如,假设有以下的表格作为训练集: | feature_1 | feature_2 | label | |-----------|-----------|---------| | x1 | y1 | l1 | | x2 | y2 | l2 | | x3 | y3 | l3 | | . | . | . | | . | . | . | | . | . | . |
x1,y1是第1个样本的特征,l1是它的标签;x2,y2是第2个样本的特征,l2是它的标签;以此类推。这样的表格就是一个典型的训练集。一般来说,训练集包含的是已知的输入-输出对,而测试集则是完全没有被使用的输入-输出对集合。