sk-learn常用函数

最新推荐文章于 2025-04-03 18:18:53 发布

蚕样起趁

最新推荐文章于 2025-04-03 18:18:53 发布

阅读量476

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习数据分析文章标签：机器学习 sk-learn 数据分析

本文链接：https://blog.youkuaiyun.com/weixin_41622267/article/details/84559059

机器学习同时被 2 个专栏收录

5 篇文章

订阅专栏

数据分析

3 篇文章

订阅专栏

本文介绍了sklearn库中的一些重要函数，包括数据预处理的StandardScaler和PolynomialFeatures，训练集划分的train_test_split，数据生成的make_blobs，模型选择的GridSearchCV，距离计算的euclidean_distances，线性回归的LinearRegression和Lasso，分类模型的RidgeClassifier和LogisticRegression，以及聚类算法的KMeans和AffinityPropagation。详细讲解了各个函数的关键参数及其作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

sklearn.preprocessing.StandardScaler(copy=True, with_mean=True, with_std=True)

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html

sklearn.preprocessing.PolynomialFeatures(degree=2, interaction_only=False, include_bias=True)

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html

degree：阶数

interaction_only：自己和自己相乘

include_bias：截距项

sklearn.model_selection.train_test_split(*arrays, test_size=0.25, train_size=None, random_state=None, shuffle=True, stratify=None)

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=None, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)

https://scikit-learn.org/dev/modules/generated/sklearn.datasets.make_blobs.html

cluster_std：簇的标准差

center_box：每个簇的边界

sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=None, iid=’warn’, refit=True, cv=’warn’, verbose=0, pre_dispatch=‘2*n_jobs’, error_score=’raise-deprecating’, return_train_score=’warn’)[source]

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html

sklearn.metrics.pairwise.euclidean_distances(X, Y=None, Y_norm_squared=None, squared=False, X_norm_squared=None)

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.euclidean_distances.html

sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=None)

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

fit_intercept：是否计算截距

normalize :是否标准化

coef_ ：参数属性

intercept_：常数项

sklearn.linear_model.Lasso(alpha=1.0, fit_intercept=True, normalize=False, precompute=False, copy_X=True, max_iter=1000, tol=0.0001, warm_start=False, positive=False, random_state=None, selection=’cyclic’)

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html

precompute：是否使用预先计算的Gram矩阵来加速计算

max_iter：最大迭代次数

tol：判断是否收敛的阈值

sklearn.linear_model.RidgeClassifier(alpha=1.0, fit_intercept=True, normalize=False, copy_X=True, max_iter=None, tol=0.001, class_weight=None, solver=’auto’, random_state=None)[source]

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.RidgeClassifier.html

sklearn.linear_model.LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’warn’, max_iter=100, multi_class=’warn’, verbose=0, warm_start=False, n_jobs=None)

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html

sklearn.cluster.KMeans(n_clusters=8, init=’k-means++’, n_init=10, max_iter=300, tol=0.0001, precompute_distances=’auto’, verbose=0, random_state=None, copy_x=True, n_jobs=None, algorithm=’auto’)

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

tol：判断是否收敛的阈值verbose：详细模式

fit_predict(X, y=None, sample_weight=None)

sklearn.cluster.AffinityPropagation(damping=0.5, max_iter=200, convergence_iter=15, copy=True, preference=None, affinity=’euclidean’, verbose=False)

https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AffinityPropagation.html

damping：阻尼系数，是相对于输入值保持当前值的程度。这是为了在更新这些值时避免数值振荡

affinity：使用哪种相似值

verbose：是否输出详细信息