ML--机器学习python库sklearn的学习

最新推荐文章于 2025-01-08 14:42:50 发布

原创最新推荐文章于 2025-01-08 14:42:50 发布 · 321 阅读

0 ·

CC 4.0 BY-SA版权

机器学习算法同时被 2 个专栏收录

10 篇文章

订阅专栏

Python

7 篇文章

订阅专栏

本文介绍了机器学习库scikit-learn（sklearn）的基础知识，它支持包括回归、降维、分类和聚类在内的多种机器学习任务。安装sklearn需要Python、NumPy和SciPy的特定版本。提供了官方文档、ApacheCN翻译版和博客文章作为学习资源。sklearn采用通用的学习模式，包括数据导入、模型训练、参数调优、预测和模型保存，并能与其他可视化库结合使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Scikit-learn(sklearn)是机器学习中常用的第三方模块，对常用的机器学习方法进行了封装，包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。
Sklearn安装要求Python(>=2.7 or >=3.3)、NumPy (>= 1.8.2)、SciPy (>= 0.13.3)。如果已经安装NumPy和SciPy，安装scikit-learn就可以使用。
学习资料：https://scikit-learn.org/stable/index.html （官方的网站，包括各种机器学习原理和模块函数API）
http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030181 (上面官方的网站， ApacheCN 开源组织翻译）
https://www.cnblogs.com/lianyingteng/p/7811126.html

入门举例：Sklearn中包含众多机器学习方法，但各种学习方法大致相同，我们在这里介绍Sklearn通用学习模式。首先引入需要训练的数据，Sklearn自带部分数据集，也可以通过相应方法进行构造；然后选择相应机器学习方法进行训练，训练过程中可以通过一些技巧调整参数，使得学习准确率更高；模型训练完成之后便可预测新数据；我们还可以通过MatPlotLib等方法来直观的展示数据；另外还可以将我们已训练好的Model进行保存，方便移动到其他平台，不必重新训练。

  from sklearn import datasets #引入数据集,sklearn包含众多数据集
  from sklearn.model_selection import train_test_split #将数据分为测试集和训练集
  from sklearn.neighbors import KNeighborsClassifier  #利用邻近点方式训练数据
  iris=datasets.load_iris()  #引入iris鸢尾花数据,iris数据包含4个特征变量
  iris_X=iris.data #特征变量
  iris_y=iris.targe t#目标值
  X_train,X_test,y_train,y_test=train_test_split(iris_X,iris_y,test_size=0.3) #利用train_test_split进行将训练集和测试集进行分开，test_size占30%
  print(y_train )#我们看到训练数据的特征值分为3类
  ###训练数据###
  knn=KNeighborsClassifier()#引入训练方法
  knn.fit(X_train,y_train)#进行填充测试数据进行训练
  ###预测数据###
  print(knn.predict(X_test))#预测特征值
  print(y_test)#真实特征值