初步认识Scikit-learn

本文深入解析了Scikit-learn的六大核心功能:分类、回归、聚类、数据降维、模型选择和数据预处理。涵盖了从监督学习到无监督学习的各种算法,如支持向量机、逻辑回归、K均值聚类、主成分分析等。

Scikit-learn的基本功能主要被分为六大部分:分类,回归,聚类,数据降维,模型选择和数据预处理


分类

概念:分类给自定对象指定所属类别

范畴:监督学习

最常见的应用场景:垃圾邮件检测、图像识别

已实现算法:支持向量机(SVM,Support Verctor Machine)、K最邻近算法(KNN,K-NearestNeighbor)、逻辑回归(LR,Logistic Regression)、随机森林(RF,Random Forest)、决策树(Decision Tree)、多层感知器(MLP,Multi-layer Perceptron)神经网络等。


回归

概念:预测与给定对象相关联的连续值属性

最常见的应用场景:预测药物反应、预测股票价格

已实现算法:支持向量回归(SVR,Support Vector Regression),脊回归(Ridge Regression),Lasso回归(Lasso Regression),弹性网络(Elastic Net),最小角回归(LARS)、贝叶斯回归(Bayesian Regrssion)等。


聚类

概念: 自动识别具有相似属性的给定对象,并将其分组为集合

范畴:无监督学习

最常见的应用场景:顾客细分、实验结果分组

已实现算法:K-均值聚类(K-means),谱聚类(Spectral Clustring)、均值偏移(Mean Shift)、分层聚类、DBSCAN聚类


数据降维

概念:通过降维技术来减少考虑的随机数量的个数

应用场景:可视化处理、效率提升

降维技术算法:主成分分析(PCA,Principal Component Analysis)、非负矩阵分解(NMF,Non-negative Matrix Factorizatio)


模型选择

概念:对给定参数和模型的比较、验证和选择

目的:通过参数调整来提升精度

已实现的模块包括:格点搜索,交叉验证和各种针对预测误差评估的度量函数


数据预处理

概念:数据的特征提取和归一化

归一化:将输入数据转换为具有零均值和单位权方差的新变量。

归一化注意点:因为大多数时候都做不到精确等于0,因此会设置一个可接受的范围,一般都要求落在0-1之间

特征提取:是指将文本和图像数据转化为用于机器学习的数字变量。


参考自博客,后期逐渐更新 Scikit-learn六大功能

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值