scikit-learn机器学习模块(上)

本文介绍scikit-learn库的基本使用方法,包括数据格式、常见数据集、线性回归、最近邻算法、线性SVM分类、数据降维PCA、高斯朴素贝叶斯分类、GradientBoostingTree回归等算法的应用,并探讨了结果量化分析的方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

scikit-learn中的数据

数据格式:2维数组或者矩阵,[n_samples, n_features]

包含数据集:Iris data ,digits data, boston data(housing price), diabetes data例如:

from sklearn.datasets import load_iris

 
 >>> iris = load_iris() -->其中含有iris.data和iris.target
我们可以通过print(data.DESCR)去查看关于数据集的详细信息


scikit-learn中的机器学习基本原理

线性回归

from sklearn.linear_model import LinearRegression
模型中的参数是可以初始化的,如:

model = LinearRegression(normalize=True)
当给定训练数据x和y时,模型拟合只需要调用:

model.fit(X, y)
另外,可以通过调用model的coef_值来查看训练得到的系数


最近邻算法

from sklearn import neighbors
neighbors中包含了KNN算法模型,通过以下调用(参数设置最近邻N的个数):

knn = neighbors.KNeighborsClassifier(n_neighbors=1)

 
 knn.fit(X, y)
由于KNN算法是不需要训练的,待预测样本直接通过给定的样本找到最近的样本进行相应分类即可:

knn.predict(x),例如x = [[3, 5, 4, 2]]

线性SVM分类

from sklearn.svm import LinearSVC
 LinearSVC(loss='l1')或l2



从以上两个例子可以看到,我们将不同类型算法的“估算器”赋予给model变量,model在对训练样本学习时,只需要调用model.fit(X, y)

对于监督式的评估器,预测新数据的方式为:model.predict(X_new)

对于分类问题,有些评估器提供model.predict_proba()方法,返回的是每种类别的概率,概率最大的类别对应了model.predict()

对于非监督式的评估器,可以对特征进行转换,无监督转换指只利用特征的统计信息的转换,统计信息包括均值、标准差、边界等等,比如标准化、PCA法降维等。

例如model.transform()和model.fit_transform(x, y = None)这二者的区别在于

fit_transform需要先拟合数据,这里所说的拟合,不是指含有目标Y的那种拟合,而是根据给定数据找到相应的统计信息,如均值和标准差;

而transform一般用于测试数据,不需要再拟合,而是直接使用训练数据拟合好的统计信息,如均值和标准差,对测试数据进行处理;

其它的模型方法,需要使用时再查阅即可。


数据降维PCA

PCA,主成分分析,可以对数据进行降维,以手写字符为例:

from sklearn.decomposition import PCA

 
 >>> pca = PCA(n_components=2) ##降至2个维度

 
 >>> proj = pca.fit_transform(digits.data) ##

 
 >>> plt.scatter(proj[:, 0], proj[:, 1], c=digits.target) 

高斯朴素贝叶斯分类

高斯朴素贝叶斯分类方法是种简单快速的方法,如果简单且快速的方法足以使结果满意,则无需浪费过多CPU资源设计复杂算法-->sklearn.naive_bayes.GaussianNB

高斯朴素贝叶斯对每个相同label的数据进行高斯拟合,然后对测试数据进行大致的分类,尽管对于现实世界的拟合不是很准确,但也很不错,特别对于文本数据

from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
train_test_split可以自动把数据随机分成训练集和测试集:

X_train, X_test, y_train, y_test = train_test_split(digits.data, digits.target)
该算法调用方法与上一致,具体使用再好好研究其中参数

clf = GaussianNB()
clf.fit(X_train, y_train)
测试时

predicted = clf.predict(X_test)


结果的量化分析

在模块sklearn.metrics中有许多成熟的度量方法:

from sklearn import metrics

 
 >>> print(metrics.classification_report(expected, predicted))
对于分类的评判,会返回精度precision、召回率recall、f1-score和support

另一种是混淆矩阵,调用方式如下:

metrics.confusion_matrix(expected, predicted)
可以帮助我们看到每一类的误分情况

有时候我们可以将每一维特征和结果的关系画图,手工选择有用的特征


Gradient Boosting Tree Regression

 GBT是一种很强大的回归树

from sklearn.ensemble import GradientBoostingRegressor
clf = GradientBoostingRegressor()

 
 clf.fit(X_train, y_train)

 
 

 
 predicted = clf.predict(X_test)


另外:

(回归)决策树Decision Tree

from sklearn.tree import DecisionTreeRegressor


待续……









评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值