ML--机器学习python库sklearn的学习

本文介绍了机器学习库scikit-learn(sklearn)的基础知识,它支持包括回归、降维、分类和聚类在内的多种机器学习任务。安装sklearn需要Python、NumPy和SciPy的特定版本。提供了官方文档、ApacheCN翻译版和博客文章作为学习资源。sklearn采用通用的学习模式,包括数据导入、模型训练、参数调优、预测和模型保存,并能与其他可视化库结合使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。

  • Sklearn安装要求Python(>=2.7 or >=3.3)、NumPy (>= 1.8.2)、SciPy (>= 0.13.3)。如果已经安装NumPy和SciPy,安装scikit-learn就可以使用。

  • 学习资料:https://scikit-learn.org/stable/index.html (官方的网站,包括各种机器学习原理和模块函数API)
    http://cwiki.apachecn.org/pages/viewpage.action?pageId=10030181 (上面官方的网站, ApacheCN 开源组织翻译)
    https://www.cnblogs.com/lianyingteng/p/7811126.html

  • 入门举例:Sklearn中包含众多机器学习方法,但各种学习方法大致相同,我们在这里介绍Sklearn通用学习模式。首先引入需要训练的数据,Sklearn自带部分数据集,也可以通过相应方法进行构造;然后选择相应机器学习方法进行训练,训练过程中可以通过一些技巧调整参数,使得学习准确率更高;模型训练完成之后便可预测新数据;我们还可以通过MatPlotLib等方法来直观的展示数据;另外还可以将我们已训练好的Model进行保存,方便移动到其他平台,不必重新训练。

      from sklearn import datasets #引入数据集,sklearn包含众多数据集
      from sklearn.model_selection import train_test_split #将数据分为测试集和训练集
      from sklearn.neighbors import KNeighborsClassifier  #利用邻近点方式训练数据
      iris=datasets.load_iris()  #引入iris鸢尾花数据,iris数据包含4个特征变量
      iris_X=iris.data #特征变量
      iris_y=iris.targe t#目标值
      X_train,X_test,y_train,y_test=train_test_split(iris_X,iris_y,test_size=0.3) #利用train_test_split进行将训练集和测试集进行分开,test_size占30%
      print(y_train )#我们看到训练数据的特征值分为3类
      ###训练数据###
      knn=KNeighborsClassifier()#引入训练方法
      knn.fit(X_train,y_train)#进行填充测试数据进行训练
      ###预测数据###
      print(knn.predict(X_test))#预测特征值
      print(y_test)#真实特征值
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值