python机器学习ML-优快云博客

原创机器学习——集成学习、线性模型、支持向量机、K近邻、决策树、朴素贝叶斯、虚拟分类器分析电动车数据集Python完整代码

本文详细讲解了如何使用Python进行电动车数据集的加载、处理、可视化与分析。在数据预处理阶段，我们通过处理重复数据和缺失值，确保数据的质量。在数据可视化部分，我们展示了多种图表，如直方图、箱线图、散点图等，帮助我们更好地理解数据的分布和趋势。同时，我们还通过交互式图表展示了如何利用Plotly提升数据可视化的互动性。

2025-01-17 15:58:51 904

原创 2025年即将到来，三大运营商大量积分即将过期

发送以下短信即可把积分兑换话费。* 中国移动：编辑短信。* 中国联通：编辑短信。* 中国电信：编辑短信。

2024-12-22 23:22:47 274

原创机器学习——通过LazyPredict、随机森林模型、基于Python的学生情绪监控与分类模型示例解析（sklearn）

本文通过对学生情绪监控数据的探索与建模，展示了从数据加载、EDA、模型训练到评价的完整流程。实验表明，随机森林和自动模型选择工具（如 LazyPredict）均能为分类问题提供高效解决方案。关键思路数据探索是理解问题的基础，类别分布与特征分析尤为重要。模型的评价不仅依赖准确率，还需综合考虑召回率与 F1 分数。自动化工具（如 LazyPredict）能够极大提高建模效率。

2024-12-22 23:12:39 640

原创 Grep.app：GitHub代码搜索的终极工具

https://grep.app/

2024-12-22 23:03:36 289

原创机器学习决策树算法——python详细代码分类问题解析（sklearn）（2）

数据13.1”文件中记录的是某商业银行个人信用卡客户信用状况，变量包括credit（是否发生违约）、age（年龄）、education（受教育程度）、workyears（工作年限）、resideyears（居住年限）、income（年收入水平）、debtratio（债务收入比）、creditdebt（信用卡负债）、otherdebt（其他负债）。credit（是否发生违约）分为两个类别：“0”表示“未发生违约”，“1”表示“发生违约”；

2024-12-14 16:45:28 843

原创机器学习决策树算法——python详细代码分类问题解析（sklearn）（1）

后剪枝呢，是 “构造完再剪枝”。然后从树的底部开始向上遍历所有不是叶节点的节点，如果把这个节点对应的子树直接换成叶节点能够提高决策树的泛化能力，那么就把这个子树换成叶节点，这样就达到剪枝的效果啦。总的来说，决策树的分类规则很容易理解，准确率也比较高，特别是对于实际决策边界是矩形的情况，而且不需要了解很多背景知识就能进行分类，它真的是一种非常有效的算法。在树生长的过程中，我们设定一个指标，如果达到这个指标，或者说当前节点的划分不能让决策树的泛化性能提高，那么决策树就会停止生长，并且把当前节点标记为叶节点。

2024-12-14 16:35:23 389

原创机器学习聚类分析算法——python详细代码解析（sklearn）

聚类分析算法是一种非监督式学习算法，它旨在将数据集中的样本划分为若干个组或“簇”，使得同一个簇内的样本相似度较高，而不同簇之间的样本相似度较低。针对的是没有响应变量而仅有特征变量的数据集，其主要作用就是快速分类。虽然是非监督式学习算法，但聚类分析也有很多应用场景，比如电商平台系统对具有相似购买行为的用户进行聚类，针对划分好的客户类别，将某用户购买的产品在同一类别用户内进行推荐，实现精准促销；或者根据以往销售记录及其他特征对产品进行聚类，若某用户购买了一款产品，则继续向他推送同一类别的其他产品。

2024-12-13 19:30:02 1375

原创机器学习主成分分析算法 PCA—python详细代码解析（sklearn）

在进行数据分析时，我们常常会遇到这样的情况：各个特征变量之间存在较多的信息重叠，也就是相关性比较强。就好比在研究一个班级学生的学习情况时，可能会收集到学生的语文成绩、数学成绩、英语成绩等多个特征变量。但往往会发现，语文成绩好的学生，数学和英语成绩也可能比较好，这就说明这些变量之间存在一定的相关性。这种情况在线性回归分析中被称为多重共线性关系。同时，如果我们的样本观测值数量较少，而选取的变量却很多，就会产生高维数据带来的 “维度灾难” 问题。

2024-10-12 12:55:48 3251 1

原创机器学习K近邻算法——分类问题K近邻算法示例

基于10折交叉验证法下带权重KNN算法的预测准确率是最优的，达到了0.73；其次为普通KNN算法，预测准确率达到了0.69；K近邻算法的决策边界是不规则形状，这一边界将所有参与分析的样本分为两个类别，右侧区域为已转型网点区域，左下方区域是未转型网点区域，边界较为清晰，分类效果也比较好，体现在各样本的实际类别与决策边界分类区域基本一致。针对“数据8.1”，讲解分类问题的K近邻算法，以V1（转型情况）为响应变量，以V2（存款规模）、V3（EVA）、V4（中间业务收入）、V5（员工人数）为特征变量。

2024-10-08 19:59:34 683

原创机器学习K近邻算法——回归问题K近邻算法示例

针对“数据4.1”，讲解回归问题的K近邻算法，以V1（营业利润水平）为响应变量，以V2（固定资产投资）、V3（平均职工人数）、V4（研究开发支出）为特征变量。

2024-10-08 19:55:31 415

原创机器学习K近邻算法——python详细代码解析（sklearn）（1）

K个训练样本的地位是完全一样的，只要成为K个中的一个，不论这些训练样本与测试样本di之间的距离如何，都会被不加区别地对待。但是在很多情况下，用户可能会希望给予距离测试样本di更近的训练样本以更大的权重，这时候就可以在KNeighborsClassifier或KNeighborsRegressor函数中加入weights参数。weights参数用于设置近邻样本的权重，可选择为"uniform"，"distance"或自定义权重。●　"uniform"为默认选项，即所有最近邻样本权重都一样。

2024-10-07 08:57:38 1239

原创机器学习朴素贝叶斯算法——python详细代码解析（sklearn）

朴素贝叶斯算法（Naive Bayesian algorithm）是在贝叶斯算法的基础上假设特征变量相互独立的一种分类方法，是贝叶斯算法的简化，常用于文档分类和垃圾邮件过滤。当“特征变量相互独立”的假设条件能够被有效满足时，朴素贝叶斯算法具有算法比较简单、分类效率稳定、所需估计参数少、对缺失数据不敏感等种种优势。

2024-10-07 08:53:40 3892

原创机器学习判别分析算法——线性判别分析和二次判别分析实操代码详解（3）

以“数据7.1”文件中的数据为例进行讲解。“数据7.1”文件记录的是某商业银行在山东地区的部分支行的经营数据（虚拟数据，不涉及商业秘密），案例背景是该商业银行正在推动支行开展转型，实现所有支行的做大做强。数据文件中的变量包括这些商业银行全部支行的、。V1（转型情况）又分为3个类别：“0”表示“未转型网点”，“1”表示“一般网点”，“2”表示“精品网点”。“数据7.1”文件中的数据内容如图所示。

2024-08-30 17:15:14 2172

原创机器学习判别分析算法——线性判别分析实操代码详解（2）

线性判别系数即线性判元对于特征变量的载荷，也是原理讲解部分提到的权重系数w，其中第一线性判元在V2（存款规模）、V3（EVA）、V4（中间业务收入）、V5（员工人数）上的载荷分别为-0.00070198、-0.00362065、-0.00128565、0.00304935，即运行结果的第一列；一般网点中，V2（存款规模）、V3（EVA）、V4（中间业务收入）、（V5员工人数）的均值分别为2608.84166667，895.94333333，284.68953333，37.27777778；

2024-08-30 14:39:16 1313 1

原创机器学习判别分析算法——线性判别分析和二次判别分析基本原理（1）

判别分析算法最早由Fisher在1936年提出，是一种经典而常用的机器学习方法，本质上也是一种线性算法，常用来做特征提取、数据降维和任务分类，可用于二分类或多分类问题，在人脸识别或检测等领域发挥了重要作用。

2024-08-29 22:32:12 1616

原创正态性检验（Shapiro-Wilk test检验和kstest检验）

正态分布又称高斯分布（Gaussian distribution）。若随机变量X服从一个数学期望为μ、方差为σ2的正态分布，记为N(μ,σ2)，其中期望值μ决定了其位置，标准差σ决定了分布的幅度。当μ=0,σ=1时的正态分布就是标准正态分布。有相当多的统计程序对数据要求比较严格，它们只有在变量服从或者近似服从正态分布的时候才是有效的，所以在对整理收集的数据进行预处理的时候需要对它们进行正态检验。

2024-08-29 21:58:16 3234

原创 Python图形绘制-直方图、密度图、小提琴图、箱图、正态QQ图、散点图和线图、热力图、回归拟合图、联合分布图

在构建模型之前，我们可以通过针对变量绘制图形的方式初步研究变量的分布特征。常用的图形绘制方法包括直方图、密度图、小提琴图、箱图、正态QQ图、散点图和线图、热力图、回归拟合图、联合分布图等，这些图形绘制方法可以帮助用户快速了解数据点的分布，还可以发现异常值的存在。

2024-08-28 15:43:06 1582

原创机器学习多元Logistic回归算法——原理+python详细代码解析（sklearn）

多元 Logistic 回归算法是一种用于处理多分类问题的统计方法。当因变量有多个类别时，比如三个及以上的不同取值，就需要使用多元 Logistic 回归算法。与二元 Logistic 回归类似，它也是建立因变量的发生概率与自变量之间的关系，但这里的因变量有多个类别。我们讲解多元Logistic回归算法的基本原理，并结合具体实例讲解该算法在Python中的实现与应用。

2024-08-24 18:06:30 3412 2

原创 Python数据观察

从结果中可以看到数据集中共有158个样本(158entries, 0 to 157)、5个变量(total 5 columns)，5个变量分别是pb、roe、debt、assetturnover、rdgrow，分别包含157、157、157、158、157个非缺失值(non-null)，数据类型均为浮点型(float64)，数据文件中共有5个浮点型(float64)变量，数据内存为6.3KB。在机器学习和数据统计分析中，在正式使用相关的算法或方法之前，往往需要对数据进行观察，查看数据的常用操作代码。

2024-08-24 11:11:15 363

原创机器学习二元Logistic回归算法——原理+python详细代码解析（sklearn）

前面讲述的线性回归算法要求因变量是连续变量，但很多情况下因变量是离散而非连续的。例如，预测下雨的概率，是下雨还是不下雨；预测一笔贷款业务的资产质量，包括正常、关注、次级、可疑、损失等。Logistic回归算法可以有效地解决这一问题，它包括二元Logistic回归算法、多元Logistic回归算法等。当因变量只有两种取值，比如下雨、不下雨时，则使用二元Logistic回归算法来解决问题

2024-08-21 19:09:39 1725

原创性能量度——衡量机器学习算法模型的评价标准（python示例代码）

回归问题监督式学习” 的性能量度指标为 “均方误差”，介绍了其数学公式，解释了公式中各部分的含义，给出了计算均方误差的自定义函数和使用 sklearn 库计算的示例代码。“分类问题监督式学习” 的性能量度：错误率和精度，说明了两者的定义和关系。查准率、查全率（召回率）、F1，阐述了在特定场景中的应用和概念。累积增益图，用于辅助解决查准率和查全率的两难选择问题。ROC 曲线和 AUC 值，介绍了通过改变分类阈值计算真正例率和假正例率来绘制 ROC 曲线，AUC 值用于评估模型性能。

2024-08-21 15:59:03 999

原创机器学习线性回归算法——原理+python详细代码解析（sklearn）

线性回归算法作为经典的机器学习算法之一，拥有极为广泛的应用范围，深受业界人士的青睐。该算法主要用于研究分析响应变量如何受到特征变量的线性影响。其通过构建回归方程，借助各特征变量对响应变量进行拟合，并且能够利用回归方程进行预测。鉴于线性回归算法较为基础、简单，所以比较容易入门。线性回归算法是一种较为基础的机器学习算法，基于特征（自变量、解释变量、因子、协变量）和响应变量（因变量、被解释变量）之间存在的线性关系。线性回归算法的数学模型为：y=α+β1x1+β2x2+…+βnxn+ε。

2024-08-21 10:57:28 3855 10

原创 Python中读取数据，包括文本文件（如 CSV 和 TXT ）、Excel 文件、SPSS 数据文件以及 Stata 数据文件

读取CSV或者TXT文件需要用到pandas模块中的pd.read_csv()函数或者pd.read_table()函数，其中pd.read_csv()函数主要用来读取CSV文件，而pd.read_table()函数主要用来读取TXT文件。可以发现上述设置并没有达到想要的效果，代码应该为：从设置路径中读取数据4.1文件，数据4.1文件为.csv格式，跳过第一行不读取，并且把变量名分别设置为'V1', 'V2', 'V3', 'V4'从设置路径中读取数据4.1文件，数据4.1文件为.csv格式，

2024-08-18 15:08:31 1049

原创机器学习-XGBoost和SHAP解析数据

接下来，通过切片操作从 shap_values 中提取出每个类别的 SHAP 值，分别存储shap_values_class_1，shap_values_class_2 和 shap_values_class_3 中。为后续的工作准备好所需的工具，我们需要引入如 numpy 、pandas 用于数据处理，xgboost 用于模型构建，用于模型解释的shap，用于可视化的seaborn和matplotlib，以及 sklearn 中的一些模块用于数据划分、评估指标计算等。展示了特征间的交互作用对预测的影响。

2024-08-18 13:01:27 2445

qq_45932996的博客