自学网站
http://scikit-learn.org/stable/tutorial/basic/tutorial.html
关于sklearn
自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了。scikit-learn简称sklearn,支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。
Sklearn 包含了很多种机器学习的方式:
- Classification 分类
- Regression 回归
- Clustering 非监督分类
- Dimensionality reduction 数据降维
- Model Selection 模型选择
- Preprocessing 数据预处理
sklearn是Scipy的扩展,建立在NumPy和matplotlib库的基础上。利用这几大模块的优势,可以大大提高机器学习的效率。
sklearn库的安装
windows 系统下通过powershell配置好pip后,输入以下命令安装
pip install sklearn
得到以下结果安装完成
Successfully installed scikit-learn-0.20.0 scipy-1.1.0 sklearn-0.0
You are using pip version 9.0.3, however version 18.1 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.
也可以直接在配置了Anaconda的环境中使用。
机器学习基础
学习问题
通过分析多个数据样本,尝试预测未知数据的属性及特征。
机器学习问题类型
监督学习(supervised learing)
监督学习的经验数据包含有我们想要预测的属性,输入向量与目标值对应,即从已知正确答案的一系列数据中学习经验。
监督学习的分类:
- 分类(classifcation):样本数据分为多个类。从已标记的数据集里学习如何标记未分类的数据的类