oisflo-优快云博客

原创西瓜书第六章（集成学习）

集成学习是一种机器学习方法，通过组合多个弱学习器构建一个强学习器。常见算法有加权多数投票、Bagging和Boosting等。加权多数投票简单地对弱学习器进行加权投票得到最终结果；Bagging使用不同训练集训练多个弱学习器，并将它们的预测结果平均化提升性能；Boosting迭代训练弱学习器，根据表现调整样本权重得到最终结果。AdaBoost是Boosting的一种实现，通过调整样本权重训练多个弱分类器。Bagging和Boosting的区别在于模型关系和权重更新机制。集成学习可以根据问题选择适合的算法。

2025-01-21 15:01:06 1321

原创西瓜书--无监督学习（聚类）

无监督学习是机器学习的一个重要分支，它在没有明确标签的数据上进行模式识别和数据分组。本文将详细介绍无监督学习的基本概念、应用范围、无标注数据的结构、聚类方法及其评估标准。无监督学习是机器学习的一个重要分支，它在没有明确标签的数据上进行模式识别和数据分组。本文将详细介绍无监督学习的基本概念、应用范围、无标注数据的结构、聚类方法及其评估标准。

2025-01-14 09:30:00 1251

原创西瓜书第七章——贝叶斯分类器

讲解贝叶斯定理：用先验概率推断后验概率。由贝叶斯推断出来的极大后验假设（MAP），极大似然假设(ML)，朴素贝叶斯(NB)，最小描述长度(MDL)。其中比较和推断了ML 与LSE,MDL与MAP的关系。最小二乘法 (Least Square Error, LSE)：定义：LSE 是一种用于线性回归等模型的参数估计方法，通过最小化预测值与实际观测值之间的平方误差之和来估计模型参数。对于线性模型yXβϵ对于线性模型 (y = X\beta + \epsilon)，对于线性模型yXβ。

2025-01-06 09:15:00 885

原创机器学习——必备前置知识（西瓜书1，2章）

机器学习必备知识：回归任务，常用平均绝对误差（MAE）、均方误差（MSE）及均方根误差（RMSE）；对于分类任务，则关注准确率（Accuracy）、精度（Precision）、召回率（Recall）以及F1分数。还有DCG、NDCG、BLEU等特定任务的评估标准。合理划分训练集、验证集与测试集对保证模型的泛化能力至关重要。随机重复实验和K折交叉验证等方法，以提高结果的可靠性。统计有效性检验为我们在不确定性环境下做出科学判断提供了理论依据，包括偏差与方差的权衡、z检验、t检验等内容。

2025-01-05 09:30:00 1285

原创西瓜书第六章（支持向量机）

SVM通过寻找最大间隔超平面来区分不同类别的数据点，这种方法不仅提高了模型的鲁棒性，还有效减少了过拟合的风险。对于线性不可分软间隔（Soft Margin），允许一定程度的误分类以提升泛化能力；核技巧（Kernel Trick），通过将数据映射到高维空间使其线性可分，从而处理复杂的非线性问题。很好的数学基础最大化间隔通过寻找最大间隔超平面，SVM提高了模型的鲁棒性和泛化能力，减少了过拟合的风险。使用线性的方法解决线性不可分问题：允许一定程度的误分类，以获得更好的泛化性能。

2024-12-01 08:30:00 2364

原创基于回归分析的大学综合得分预测（含完整代码）

本任务中，我们将利用CWUR提供的世界各地知名大学各方面的排名数据（如师资、科研等），通过数据可视化的方式观察不同大学的特点，并构建机器学习模型（线性回归）预测大学的综合得分。X = data_df[feature_cols] # 自变量Y = data_df['score'] # 因变量。

2024-11-29 20:45:18 1014

原创西瓜书第五章（神经网络）

输入1输入2输出000011101110class SOM:"""初始化SOM网络。:param input_dim: 输入数据的维度:param map_size: 网格的大小 (rows, cols):param learning_rate: 初始学习率:param radius: 初始邻域半径:param decay_factor: 衰减因子"""# 随机初始化权重矩阵"""找到最佳匹配单元（BMU）。:param x: 输入向量。

2024-11-28 09:30:00 943

原创西瓜书第四章（决策树）

西瓜书第四章详细介绍了决策树的学习目的、原理、类型以及过拟合的处理措施。决策树通过构建树状结构来进行分类或回归，其核心在于选择最优特征进行划分。划分依据包括信息熵、基尼混杂度和错分类混杂度，信息增益用于衡量划分效果。ID3算法使用信息增益选择特征，而C4.5和CART算法则分别使用增益率和基尼指数。ID3算法存在过拟合和偏向于选择取值多的特征的问题，C4.5和CART通过引入增益率和基尼指数来改进。过拟合是决策树常见的问题，可以通过预剪枝和后剪枝来解决。预剪枝在树构建过程中限制树的深度，后剪枝则在构建完成后

2024-11-25 17:51:35 1424

原创基于决策树的英雄联盟比赛胜负预测（含完整代码）

在代码中设置随机种子（例如 RANDOM_SEED = 2024）的主要目的是为了确保每次运行代码时，随机过程的结果是一致的。通过绘制不同参数组合下的准确率图，直观地展示了参数对模型性能的影响，帮助读者更好地理解和选择合适的参数。通过设置相同的随机种子（伪随机数），可以确保每次运行代码时，随机数生成器生成的随机数序列是相同的。如果在开发过程中遇到问题，设置固定的随机种子可以帮助你更容易地定位问题，因为每次运行代码时的数据和结果都是一样的。在科学研究和实验中，结果的可重复性是非常重要的。

2024-11-17 09:15:00 1222

原创西瓜书的第三章（线性模型）

学习一些相关的概念。基础的形式，线性回归、均方误差、梯度下降等关键内容，涵盖对数几率回归、多分类学习及类别不平衡问题多分类学习（Multi-class Classification）是机器学习中的一种任务类型，旨在将输入的样本划分到多个不同的类别中。与二分类（只有两个类别，是猫或不是猫）不同，多分类面对的是具有三个或更多类别情况，例如在图像识别中区分不同种类的动物（猫、鸟、狗等）在分类任务中不同类别在样本数量上存在较大差异的现象。

2024-11-16 19:16:17 1040

原创评估KNN模型在图像分类任务中的性能（以车牌号识别为例）-含完整代码

这段代码通过多种实验（不同K值、不同距离度量方式、平权和加权K-NN、不同训练集大小比例）来评估KNN模型在图像分类任务中的性能，并通过可视化手段展示结果。它的基本思想是：对于一个待分类的样本，找到训练集中与其最接近的 K 个样本（邻居），然后根据这 K 个邻居的类别或属性来决定待分类样本的类别或属性。通过多种实验（不同K值、不同距离度量方式、平权和加权K-NN、不同训练集大小比例）来评估KNN模型在图像分类任务中的性能，并通过可视化手段展示结果。K 值较小：模型对训练数据的拟合程度较高，容易过拟合。

2024-11-16 09:45:00 1358

原创 `k_values` 和 `weights` 变量在 KNN的作用

详细介绍两个变量在 KNN（K-Nearest Neighbors）算法中的作用。K 值：在 KNN 算法中，K 值表示选择最近的邻居数量。例如，如果 K=3，那么算法会找到与目标样本最近的 3 个邻居，并根据这 3 个邻居的类别来预测目标样本的类别。影响：K 值较小：模型对训练数据的拟合程度较高，容易过拟合。因为此时模型对噪声和异常值非常敏感。K 值较大：模型对训练数据的拟合程度较低，容易欠拟合。因为此时模型会忽略一些局部的细节，导致分类效果变差。定义作用

2024-11-16 00:42:10 316

oisflo的博客