sklearn修炼
文章平均质量分 96
sklearn开发机器学习方法
算法驯化师
1. 多年面试官经验、欢迎咨询各类简历修改、面试经验、求职准备、项目包装、项目指导(算法代码方向);
2. 混迹多个大厂搜索、推荐、广告、内容、数据挖掘、数据分析等多个岗位工作,目前大模型算法驯化师;
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Sklearn-驯化】一文搞懂很难的条件随机场系列算法:hmm、crf以及实践
判别式模型举例:要确定一个羊是山羊还是绵羊,用判别模型的方法是从历史数据中学习到模型,然后通过提取这只羊的特征来预测出这只羊是山羊的概率,是绵羊的概率。生成式模型举例:利用生成模型是根据山羊的特征首先学习出一个山羊的模型,然后根据绵羊的特征学习出一个绵羊的模型,然后从这只羊中提取特征,放到山羊模型中看概率是多少,在放到绵羊模型中看概率是多少,哪个大就是哪个。假设你现在有一个分类问题,x是特征,y是类标记。用生成模型学习一个联合概率分布P(x,y),而用判别模型学习一个条件概率分布P(y|x)原创 2024-07-29 14:15:17 · 1542 阅读 · 0 评论 -
【Sklearn-混淆矩阵】一文搞懂分类模型的基础评估指标:混淆矩阵ConfusionMatrixDisplay
在机器学习中,评估分类模型的性能是一个重要环节。混淆矩阵(Confusion Matrix)是一个常用的工具,它展示了模型预测结果与实际标签之间的关系。scikit-learn(简称sklearn)提供了ConfusionMatrixDisplay函数,用于以图形化的方式展示混淆矩阵,使得结果更易于理解。ConfusionMatrixDisplay函数是sklearn中一个非常有用的工具,它以图形化的方式展示混淆矩阵,帮助我们快速了解分类模型的性能。原创 2024-07-20 18:13:22 · 1186 阅读 · 0 评论 -
【Sklearn-Bug驯化-混淆矩阵】成功Sklearn中plot_confusion_matrix出现ImportError: cannot import name ‘plot_confusion
混淆矩阵的颜色映射。可以是一个字符串名称(如"Blues"、"Greens"等),也可以是一个matplotlib.colors.Colormap对象。绘制混淆矩阵的坐标轴。如果不提供该参数,默认使用当前活动的坐标轴。指示是否在混淆矩阵图中显示每个单元格的数值。默认为True。指示是否在混淆矩阵中显示比例而不是原始计数。默认为False。标签的旋转角度。默认为None,表示不旋转。数值的格式化字符串。默认为".2f",表示保留两位小数。类别标签,是一个一维数组,包含了每个类别的名称。原创 2024-07-19 17:15:27 · 1416 阅读 · 0 评论 -
【Sklearn-驯化】一文搞懂sklearn中特征平滑之-贝叶斯平滑策略使用技巧
在机器学习中,特征平滑是一种用于改善高维数据表示的技术,特别是在处理文本数据或生物信息学数据时。贝叶斯特征平滑(Bayesian Feature Smoothing)是一种基于概率模型的方法,它通过为特征分配先验分布来平滑特征的分布,从而减少噪声和过拟合贝叶斯特征平滑是一种有效的技术,用于处理高维数据中的噪声和过拟合问题。通过在scikit-learn中使用多项式朴素贝叶斯模型,我们可以轻松地实现贝叶斯特征平滑。希望这篇博客能够帮助你更好地理解贝叶斯特征平滑,并将其应用于实际的机器学习项目中。原创 2024-07-17 10:29:37 · 1312 阅读 · 0 评论 -
【Sklearn-驯化】一文搞懂sklearn中参数优化器之-贝叶斯参数优化器
贝叶斯参数优化是一种用于超参数调优的方法,它利用贝叶斯统计原理来选择最有可能提高模型性能的超参数组合。这种方法比传统的网格搜索或随机搜索更高效,因为它根据已有的调优结果来指导搜索过程。目标函数是需要优化的模型,通常是一个模型的交叉验证分数。# 加载数据集# 定义目标函数return -score # 我们希望最大化分数,所以使用负分数贝叶斯参数优化是一种高效的超参数调优方法,它利用历史数据来指导搜索过程。在scikit-learn生态系统中,skopt库提供了一个易于使用的贝叶斯优化接口。原创 2024-07-16 13:40:08 · 1478 阅读 · 0 评论 -
【Sklearn驯化-多项式特征】一文搞懂机器学习中多项式特征提取,PolynomialFeatures使用技巧
在机器学习中,许多算法基于线性模型,但现实世界的数据往往具有非线性特征。PolynomialFeatures 是 scikit-learn 库中的一个预处理步骤,它可以从现有特征中生成新的特征,这些新特征是原始特征的幂次组合,从而允许模型学习数据中的非线性模式。PolynomialFeatures 是 scikit-learn 中一个强大的工具,它允许模型通过增加多项式特征来捕捉数据中的非线性关系。通过本博客的代码示例,我们学习了如何使用 PolynomialFeatures 进行特征转换、训练和评估模型。原创 2024-07-15 10:34:25 · 1046 阅读 · 0 评论 -
【Sklearn-驯化】一文学会sklearn中的参数优化方法对比:RandomizedSearchCV、GridSearchCV
RandomizedSearchCV和GridSearchCV是scikit-learn中model_select类中用于参数优化的两个类。随机搜索交叉验证。它是一种参数优化方法,通过在参数空间中随机选择一组参数进行训练和验证,并根据交叉验证的结果来评估模型的性能。相对于GridSearchCV,RandomizedSearchCV在参数空间中进行随机搜索,并且只随机选择一部分参数组合进行评估,从而减少计算开销。RandomizedSearchCV适用于参数空间较大的情况。网格搜索交叉验证。原创 2024-07-11 09:47:30 · 916 阅读 · 0 评论 -
【Sklearn-驯化】一文学会机器学习中的交叉验证-Kflods使用技巧
交叉验证是一种统计技术,用于评估并提高模型的预测性能。在scikit-learn中,K折交叉验证(K-Fold Cross-Validation)是一种常用的交叉验证方法,它将数据集分割成K个子集,每个子集轮流作为测试集,而剩下的K-1个子集联合作为训练集。将数据集分割成K个大小相等(或尽可能相等)的子集。对于每个子集,轮流将其作为测试集,其余K-1个子集合并作为训练集。对于每一次分割,计算模型在测试集上的性能指标(如准确率、均方误差等)。将K次的性能指标求平均,得到模型的最终评估结果。A。原创 2024-07-08 10:20:28 · 1676 阅读 · 0 评论 -
【Sklearn-驯化】成功学会Xgboost的原理以及实践技巧
XGBoost(eXtreme Gradient Boosting)是一种高效的梯度提升框架,它使用树算法来解决分类和回归问题。XGBoost在许多机器学习竞赛中表现出色,因其速度快、精度高而受到广泛欢迎。Xgboost是GBDT算法的一种很好的工程实现,并且在算法上做了一些优化,主要的优化在一下几点。首先Xgboost加了一个衰减因子,相当于一个学习率,可以减少加进来的树对于原模型的影响,让树的数量变得更多;其次是在原GBDT模型上加了个正则项,对于树的叶子节点的权重做了一个约束;原创 2024-07-05 10:16:19 · 1333 阅读 · 0 评论 -
【Sklearn-驯化】轻松学会机器学习中的bagging基础模型随机森林的使用技巧
随机森林(Random Forest)是一种集成学习方法,它通过构建多个决策树并将它们的预测结果结合起来,以提高模型的准确性和鲁棒性。在scikit-learn中,随机森林模型通过RandomForestClassifier(用于分类)和RandomForestRegressor(用于回归)类实现。原创 2024-07-04 12:10:46 · 1190 阅读 · 0 评论 -
【Sklearn-驯化】一文搞懂很难的EM算法以及实践
高斯混合模型(Gaussian Mixture Model, GMM)是一种概率模型,它假设数据点是从多个高斯分布中生成的。GMM在聚类分析中非常有用,特别是当数据集包含多个子群体且每个子群体具有不同的特征分布时。在贝叶斯学派,如果知道观测变量以及其分布函数,我们可以通过极大似然或者极大后验的方式去求取相关的分布函数的参数θ\thetaθ,但是当观测数据中含有未知的隐变量时,此时无法通过上述的方式直接去求取相关的分布参数,而EM算法就是为了去解决这个问题的。原创 2024-07-03 12:22:43 · 1239 阅读 · 0 评论 -
【Sklearn-驯化】一文分析教你如何使用k-means进行数据聚类
K-Means是一种流行的聚类算法,用于将数据点划分为K个簇。它通过最小化簇内数据点与簇中心的距离来进行聚类,目的是使得簇内的点尽可能相似,簇间的点尽可能不同。K-Means是一种简单而有效的聚类算法,广泛应用于数据探索和分析。scikit-learn提供了易于使用的K-Means实现。通过本博客的代码示例,我们学习了如何创建K-Means模型,进行训练、聚类标签分配和评估。希望这篇博客能够帮助你更好地理解K-Means模型,并将其应用于实际的聚类任务中。原创 2024-07-02 09:59:55 · 1242 阅读 · 0 评论 -
【Sklearn-驯化】一文从基础帮你搞懂svm算法做分类和回归的原理以及实践
支持向量机(Support Vector Machine, SVM)是一种监督学习算法,用于分类和回归任务。SVM通过找到数据点之间的最优边界(称为超平面)来区分不同的类别。在scikit-learn(简称sklearn)中,SVM模型通过SVC(用于分类)和SVR(用于回归)类实现。样本空间任意点x到超平面wTxb0(w^Tx+b=0)wTxb0r∣wTxb∣∣∣w∣∣∣∣w∣∣w12w22w32r∣∣w∣∣∣wTx。原创 2024-07-01 13:47:20 · 2030 阅读 · 0 评论 -
【Sklearn-驯化】一文搞懂机器学习树模型建模可视化过程
最为全面的机器学习树模型建模可视化分析原创 2024-06-29 11:43:45 · 938 阅读 · 0 评论 -
【Sklearn-驯化】sklearn中决策树cart的用法,看这篇就够了
🎯 决策树(Decision Tree)是一种常用的机器学习算法,可以用于分类和回归问题。它使用树状结构来表示决策规则,并通过一系列条件进行判断和决策。在训练决策树时,通常采用自顶向下的递归方法,通过选择能够使数据集的纯度提高最大的特征,将数据集分割成更小的子集。纯度是指数据集中同一类别数据的占比或误差的度量,常用的纯度衡量指标有基尼系数、信息熵等。决策树可以根据数据集的特点进行灵活的分类和回归预测,且易于理解和解释。它具有可解释性强、处理缺失值和离散特征能力强等优点。原创 2024-06-29 11:29:48 · 1066 阅读 · 0 评论 -
【Sklearn-LR驯化】一文搞懂分类基石模型-逻辑回归使用总结
逻辑回归是一种广泛应用于分类问题的统计方法,特别是在二分类问题中。尽管名字中有“回归”二字,逻辑回归实际上是一种分类算法。在Python的scikit-learn库中,逻辑回归模型通过LogisticRegression类实现,它使用最大似然估计来训练模型。逻辑回归比较高效,不需要太大计算,不需要对特征进行缩放,容易实现。但是该算法分类效果一般,且不能处理非线性问题,因为它的决策边界是线性的。因此,当数据分界面是线性平面的时候,可以采用该算法进行分类。个人觉得逻辑回归设计的巧妙一点的地方在于,将。原创 2024-06-28 10:32:47 · 991 阅读 · 0 评论 -
【Sklearn-线性回归驯化】史上最为全面的预测分析的基石-线性回归大全
线性回归是统计学中最基础的预测模型之一,用于分析一个或多个自变量(解释变量)与一个因变量(响应变量)之间的线性关系。在Python中,scikit-learn库提供了一个简单而强大的线性回归实现,适用于各种回归任务。线性回归就两个参数,从频率学派去解释就是去最小化均方根误差,而最小化误差的方法就是最小二乘法,而对于最小二乘法可以通过极大似然估计推导出来。对于贝叶斯角度去,通过极大后验来估计线性回归的参数,个人感觉更好理解。原创 2024-06-28 10:28:49 · 806 阅读 · 0 评论 -
【Sklearn驯化-回归指标】一文搞懂机器学习中回归算法评估指标:mae、rmse等
回归分析是统计学中用于估计变量之间关系的一种方法。在机器学习中,回归模型用于预测连续的输出值。scikit-learn(简称sklearn)提供了多种回归指标来评估模型的预测性能。mae是回归模型中常用的评估指标之一。它用于衡量模型预测结果与真实值之间的平均绝对差异程度,即平均预测误差的绝对值。L1m∑i1m∣yi−yi∣Lm1i1∑m∣yi−yi∣MAE的值越小,表示模型的预测能力越好。原创 2024-06-27 14:05:08 · 1513 阅读 · 0 评论 -
【Sklearn驯化-聚类指标】搞懂机器学习中聚类算法评估指标,轮廓系数、戴维森堡丁指数
聚类作为无监督学习的核心任务之一,旨在将数据集中的样本划分为若干个簇,使得簇内的样本相似度高,簇间的样本相似度低。然而,由于缺乏真实标签,聚类效果的评估成为一个挑战。scikit-learn(简称sklearn)提供了多种聚类指标来量化聚类效果。聚类指标是评估聚类效果的重要工具。在sklearn中,我们可以使用轮廓系数和戴维森堡丁指数等指标来量化聚类的性能。通过理解这些指标的计算方法和适用场景,我们可以更好地评估和优化聚类模型。原创 2024-06-27 14:02:37 · 1551 阅读 · 0 评论 -
【Sklearn驯化-分类指标】一文带你学会机器学习中的分类模型指标对比
在机器学习中,分类模型的性能评估是理解模型效果的关键步骤。scikit-learn(简称sklearn)提供了多种分类指标,帮助我们量化模型的准确性、精确性、召回率和F1分数等。在分类模型效果评估中,如果有一个指标是分类模型效果评估的基础的话那非混淆矩阵了,它是分类模型效果评估的基础,很多的其他分类模型评估指标也是从上述的基础上衍生而来的,因此,掌握混淆矩阵是掌握分类模型评估的重中之重,具体混淆矩阵如下图所示:在混淆矩阵中,行代表模型的预测结果,列代表真实标签。原创 2024-06-26 10:38:28 · 1501 阅读 · 0 评论 -
【Sklearn驯化-数据处理】一文搞懂sklearn中数据处理方法StandardScaler、OneHotEncoder、pca
scikit-learn提供了强大的数据处理函数,这些函数涵盖了从数据清洗到特征工程的各个环节。通过本博客的代码示例,我们学习了如何使用sklearn进行数据清洗、特征缩放、特征编码和降维。正确的数据处理方法可以显著提高模型的准确性和效率。希望这篇博客能够帮助你更好地理解sklearn中的数据处理函数,并将其应用于实际的机器学习项目中。原创 2024-06-25 10:18:57 · 1190 阅读 · 0 评论 -
【Sklearn驯化-环境配置】一文搞懂sklearn建模的最优环境搭建用法
在日常的数据分析和数据建模过程中,一方面我们需要开发整套的代码需要一个可视化的代码编辑器同时我们有时候需要对中间的数据结果进行分析,这个时候需要对其进行可视化等操作,因此,我们需要一个代码编辑器不是特别的重的,同时也能够对数据进行可视化操作的工具,下面介绍日常工作中比较好用且符合上述要求的两个工具。原创 2024-06-23 16:31:08 · 1333 阅读 · 0 评论 -
【sklearn驯化-降维】一文搞懂机器学习中的降维技术PCA、LDA用法
在机器学习领域,降维是一种常用的技术,用于减少数据集中的特征数量,从而简化模型、提高计算效率,并有助于避免过拟合。两种常见的降维技术是主成分分析(PCA)和线性判别分析(LDA)。PCA:是一种无监督学习方法,通过正交变换将数据转换到新的坐标系,使得数据的任何投影的方差最大化。LDA:是一种监督学习方法,不仅考虑了数据的方差,还考虑了数据的类别信息,以实现类别之间的最佳分离。原创 2024-06-17 09:17:28 · 1264 阅读 · 0 评论
分享