墨＆白.-优快云博客

原创机器学习速成笔记week9：决策树ID3、C4.5和CART的底层逻辑

决策树是一种用于分类和回归的树形模型，通过递归选择最优特征构建内部节点和叶节点，实现对数据的分类。其核心流程包括特征选择、决策树生成和剪枝。特征选择常用信息增益或基尼指数衡量特征分类能力。ID3和C4.5算法分别使用信息增益和信息增益比，后者解决了连续特征处理和过拟合问题。CART算法采用二叉树结构和基尼指数，适用于分类和回归。决策树容易过拟合，需通过剪枝优化模型复杂度。不同算法各有优劣，需根据具体需求选择。

2026-01-08 18:44:06 869

原创解决markdown上传优快云无法显示图片的问题

本人经常在Typora上写markdown文档，所以图片的存储地址一直在本地，想要把markdown上传到csdn和知乎就需要重新上传图片，非常的麻烦。但是我可以把Typora的markdown文档export为word格式导入到知乎，这样知乎既能显示文字格式也能显示图片，非常的方便，而优快云不可以，于是搜集资料，发现可以把图片存储在云上，比如GitHub和gitee等，这样可以直接引用url格式而不是本地地址。

2025-12-17 13:19:18 362

原创在jupyter notebook中使用R语言

Rstudio是R环境的专用编辑器，就像pycharm是python的专用编辑器，但是电脑上的编辑器也快十几个，而且经常用python和R，换来换去很麻烦，于是想把R加载到jupyter notebook中使用，整理教程后记录如下，方便日后使用。安装R内核后，即可在jupyter中使用。我使用的是MacOS12。

2025-12-17 12:41:28 108

原创如何卸载/更新Mac上的R版本

Mac上的R版本还是四五年前的老版本，最近发现很多函数包都不支持，想更新电脑上的R版本，担心电脑R装的版本太多会互相冲突，并且留下很多冗余的垃圾，查询教程后整理如下，方便以后使用。

2025-12-16 15:31:47 279

原创 R语言下载catboost和UBL失败

使用install.packages(‘catboost’)，原因是当前版本R的函数包里面没有包含catboost，显示当前版本的R语言和catboost不适配。需要进入catboost的官网下载安装包。我选择把包先下载到本地，然后使用R语言的。devtools工具安装。我使用的MacOS12。

2025-12-16 15:25:13 204

原创机器学习速成笔记week8：K近邻与朴素贝叶斯

本文介绍了两种经典机器学习算法：K近邻法(KNN)和朴素贝叶斯分类器。KNN通过计算待分类点与训练集中k个最近邻的距离进行分类，核心要素包括距离度量、k值选择和分类决策规则。为提高搜索效率，可采用kd树数据结构进行优化。朴素贝叶斯基于贝叶斯定理和特征条件独立假设，通过先验概率和条件概率计算后验概率进行分类，适用于文本分类等场景，采用拉普拉斯平滑处理零概率问题。两种方法分别代表判别式和生成式分类器的典型实现。

2025-11-26 21:12:08 756

原创机器学习速成笔记week7：搞懂支持向量机

本文介绍了支持向量机（SVM）的核心概念及其数学原理。SVM是一种基于间隔最大化的线性分类器，通过硬间隔或软间隔处理线性可分或近似线性可分数据，并利用核技巧解决非线性问题。关键点包括：函数间隔与几何间隔：几何间隔是点到超平面的真实距离，SVM通过最大化几何间隔提高鲁棒性。支持向量：距离超平面最近的样本点决定了决策边界，使SVM对小样本数据表现良好。间隔最大化：SVM通过优化目标函数最小化参数向量的范数，确保决策边界与样本点间的最大间距。数学推导：通过投影分析，解释了为何SVM倾向于选择参数范数较小的

2025-09-10 17:46:36 634

原创机器学习速成笔记week6：关于机器学习的一些建议

本文摘要：本文介绍了机器学习中的模型评估与改进方法，重点讨论了如何诊断和解决偏差（欠拟合）与方差（过拟合）问题。主要内容包括：1）通过训练集/测试集划分评估模型性能；2）使用交叉验证集进行模型选择；3）分析学习曲线判断偏差或方差问题；4）调整正则化参数λ来平衡模型复杂度；5）针对不同问题给出具体改进建议（如增加数据、调整特征、修改正则化程度等）。文章强调应根据诊断结果选择合适的优化方向，避免盲目尝试，从而提高模型泛化能力。

2025-09-09 18:51:19 1048

原创 python机器学习实战【附完整代码注释】：从数据科学家的角度解决问题

本文提出了一个完整的数据分析框架，包括问题定义、数据采集、预处理、探索性分析、建模与验证等步骤。以泰坦尼克号生存预测为例，演示了从数据加载到清洗的全过程。重点介绍了数据清洗的4C原则：纠正异常值、补充缺失值、创建新特征和转换数据格式。通过Python代码展示了如何处理缺失值（年龄用中位数填充、登船口用众数填充），并强调特征工程的重要性。文章指出合理的特征选择比算法本身更重要，提醒避免过度依赖技术而忽视问题本质。最后强调了模型验证和优化的必要性，以确保模型的泛化能力。

2025-08-23 18:10:58 875

原创机器学习速成笔记week5：神经网络

无论是线性回归还是逻辑回归都有这样一个缺点，即：当特征太多时，计算的负荷会非常大。下面是一个例子，使用x1x_1x1x2x_2x2的多次项式进行预测时，可以应用的很好：使用非线性的多项式项，能够建立更好的分类模型。但是假设有非常多的特征，此时构建一个非线性的多项式模型，结果将是数量非常惊人的特征组合，即便只采用两两特征的组合x1x2x1x3x1x4x2x3x2x4x99x100x1x2x1x3x1。

2025-08-12 17:49:02 948

原创机器学习速成笔记week4：分类问题评估与逻辑回归实战

本文摘要：文章介绍了分类问题评估的关键指标和方法，包括分类阈值、混淆矩阵（TP/FP/TN/FN）、精确率、召回率、F1得分和ROC曲线。针对不平衡数据集，提出了准确率、召回率等指标的选择策略。随后以水稻分类为例进行Python实战演示：通过Pandas加载数据，进行统计分析和可视化（散点图、3D图），使用Keras构建逻辑回归模型。代码示例展示了数据探索、特征工程和模型构建的完整流程。

2025-07-31 21:56:40 915

原创机器学习速成笔记week3：逻辑回归与正则化

摘要本文介绍了逻辑回归(Logistic Regression)算法及其在分类问题中的应用。主要内容包括：1) 逻辑回归适用于二元分类问题，通过Sigmoid函数将输出限制在0-1之间，表示概率；2) 决策边界的确定方法及参数θ的作用；3) 逻辑回归的损失函数设计，与线性回归不同，采用交叉熵损失函数以避免非凸优化问题，并给出了Python实现代码。逻辑回归通过概率预测解决分类问题，是机器学习中广泛使用的基础算法之一。

2025-07-30 15:11:55 2013

原创机器学习速成笔记week2：多变量线性回归与python实战

本文总结了多变量线性回归的核心概念和方法，并利用Keras库搭建算法进行实战应用。主要内容包括：1）多维特征的表示方法；2）多变量梯度下降算法，通过迭代优化损失函数；3）特征缩放技术（如Z-score标准化）可加速收敛；4）学习率的选择策略及影响；5）多项式回归的灵活应用；6）正规方程作为梯度下降的替代解法，7）还提供了Python实现线性回归算法，利用Keras库搭建。

2025-07-29 13:44:42 1825 1

原创机器学习速成笔记week1：引言与单变量线性回归

本文介绍了机器学习的基本概念和单变量线性回归模型。主要内容包括：1）机器学习定义及分类，如监督学习、无监督学习、强化学习和生成式AI；2）监督学习中的回归和分类任务；3）无监督学习的聚类方法；4）单变量线性回归建模过程，包括假设函数和损失函数；5）常用损失函数类型及其计算公式。文章通过房价预测等实例，阐述了如何建立和优化机器学习模型。

2025-07-27 15:33:18 2137 1

qq_62591373的博客