望云山190-优快云博客

原创我的编程之旅：从零到无限可能

2024年偶然用Python写了一个自动整理文件的脚本，第一次感受到“代码即魔法”的震撼。“代码是21世纪的诗歌，而我将用变量书写未来。如果你也在学习编程，欢迎留言分享你的目标，让我们彼此见证成长！痴迷于用代码解决现实问题，尤其是自动化工具开发与智能硬件交互方向。采用“3+1”节奏（3周学习新技术，1周项目整合）开放的技术生态（如CUDA、Omniverse平台）大家好，我是望云山，一名智能科学与技术专业的大一学生。基础期（1-3个月）：每周投入12小时。提升期（4-6个月）：每周18小时。

2025-03-29 21:16:42 340

原创第二章：17.5 什么时候使用决策树

优先选择决策树或XGBoost。

2025-02-22 11:30:00 460

原创第二章：17.4 XGBoost算法

XGBoost 是一种强大的机器学习算法，它通过逐步构建多棵决策树，并优先关注那些尚未被准确预测的样本，从而逐步提升模型的整体性能。这种“刻意练习”的策略使得 XGBoost 在处理复杂数据集时表现出色。此外，XGBoost 的开源实现使得它易于使用，广泛应用于各种领域。

2025-02-22 07:30:00 1376

原创第二章：17.3 随机森林算法

随机森林（Random Forest）是一种强大的集成学习算法，它通过组合多个决策树来提高预测的准确性和稳定性。它比单个决策树更强大，因为它能够通过多种方式减少过拟合，并充分利用数据的多样性。

2025-02-21 21:25:26 782

原创第二章：17.1 从单一决策树到集成方法：提升模型鲁棒性的关键 17.2替换取样：构建决策树的关键技术

因此，仅仅改变一个训练样本，就可能导致决策树在根节点产生不同的分割，进而生成一个完全不同的决策树。这三棵树做出了不同的预测，但通过投票机制，多数树预测它是猫，因此最终的预测结果就是“猫”。这种基于投票的集成方法使得整体算法对单个决策树的决策不那么敏感，因为每棵树的预测只占总票数的一部分。我们可以将这10个样本放入一个“袋子”中，然后通过替换取样的方式从中抽取新的样本，构建一个新的训练集。接下来，我们将探讨如何构建这些决策树的集合，以及如何通过不同的策略让它们产生多样化的决策，从而进一步提升集成方法的性能。

2025-02-20 02:00:00 378

原创第二章：16.6 回归树

到目前为止，我们已经讨论了如何训练单个回归树。通过选择方差减少量最大的特征进行分裂，我们可以构建一个能够预测连续数值的回归树。如果你训练多个回归树并组合它们，我们称之为“回归树集合”，这通常可以得到更好的预测结果。决策树在回归算法中的应用：预测动物体重图片展示了一个完整的回归决策树，用于预测动物的体重。决策树根据耳朵形状和脸型进行分裂。图片展示了如何通过比较不同特征分裂后的方差减少量来选择最佳分裂特征。这里有三个特征：耳朵形状（Ear shape）、脸型（Face shape）和胡须（Whiskers）。

2025-02-19 21:10:22 818

原创第二章：16.5 决策树处理连续值特征

排序：按特征值对样本进行排序。选择阈值：选择排序后的中点作为可能的阈值。计算信息增益：对每个阈值计算分裂后的信息增益。选择最优阈值：选择信息增益最高的阈值进行分裂。如果连续特征的分裂效果比其他特征更好，那么它就会被选为当前节点的分裂特征。这种方法使得决策树能够有效地处理连续特征，从而提高分类性能。

2025-02-19 19:57:18 930

原创第二章：16.4 独热编码处理多值特征

独热编码是一种将分类特征转换为一组二进制特征的方法。如果一个分类特征有k个可能值，则通过独热编码将其拆分为k个独立的二进制特征，每个特征只能取0或1的值。具体来说：每个二进制特征对应于分类特征的一个可能值。对于一个样本，只有与该样本特征值对应的二进制特征取值为1，其余特征取值为0。独热编码是一种处理多值分类特征的有效方法。它通过将分类特征拆分为多个二进制特征，确保每个特征值互斥且完备，从而兼容多种机器学习算法。

2025-02-18 07:15:00 1111

原创第二章：16.3 构建决策树的过程

递归思想：决策树的构建是递归的，每次分割数据后，都会在子集上重复相同的步骤，直到满足停止条件。信息增益：选择信息增益最高的特征进行分割，以最大化数据的纯度。停止条件：通过设置最大深度、信息增益阈值、最小样本数等参数，避免过度拟合。参数优化：可以通过交叉验证等方法调整参数（如最大深度、信息增益阈值等），以达到最佳的模型性能。

2025-02-17 22:10:01 990

原创第二章：16.2 选择拆分信息增益

通过计算不同特征的信息增益，我们可以确定哪个特征对于提高数据集纯度最有效。在决策树算法中，我们会选择信息增益最大的特征作为当前节点的拆分特征，以此来构建决策树。这种方法有助于减少数据集的熵，从而提高分类的准确性。

2025-02-16 17:15:00 1511

原创第二章：16.1 测量纯度--熵

熵是衡量数据集不纯度的一种方法。它通过计算数据集中各类别样本的比例来评估数据集的混乱程度。熵的值越高，表示数据集的不纯度越高；熵的值越低，表示数据集的纯净度越高。熵是衡量数据集不纯度的一种方法。在分类问题中，熵可以帮助我们了解数据集的混乱程度。熵值越高，表示数据集的分类越不明确；熵值越低，表示数据集的分类越明确。在构建决策树时，熵是一个重要的指标，可以帮助我们选择最佳的分裂点。

2025-02-16 11:47:35 722

原创第二章：15.1 决策树模型 15.2 构建决策树过程

决策树是一种基于树形结构的分类模型，通过一系列的决策节点来对数据进行分类。根节点（Root Node）树的最顶部节点，是决策的起点。例如，根节点可能询问“耳朵形状是什么？决策节点（Decision Nodes）椭圆形的节点，表示一个特征的判断条件。根据特征的值，决策树会沿着不同的分支向下进行判断。叶节点（Leaf Nodes）矩形的节点，表示最终的分类结果。例如，叶节点可能标注为“猫”或“非猫”。决策树是一种基于树形结构的分类模型，通过一系列的决策节点来对数据进行分类。根节点是决策的起点，决策节点。

2025-02-16 10:14:51 1113

原创第二章：14.2 精确率与召回率的权衡

精确率（Precision）：衡量的是所有被预测为正类（即预测为罕见疾病存在）的样本中，实际为正类的比例。计算公式为：精确率关注的是预测为正类的准确性。召回率（Recall）：衡量的是所有实际为正类的样本中，被正确预测为正类的比例。计算公式为：召回率关注的是识别所有正类的能力。

2025-02-15 07:30:00 516

原创第二章：14.1 倾斜数据集的误差指标

在训练一个二进制分类器来检测一种罕见疾病时，我们通常会用到一些误差度量标准来评估算法的性能。这是因为仅仅使用分类误差率（如准确率）可能无法准确反映算法的实际效果，尤其是在处理不平衡数据集时。

2025-02-14 21:58:57 642

原创第二章：13.5 机器学习项目的完整周期

建立一个有价值的机器学习系统需要经过项目规划、数据收集、模型训练与迭代改进、模型部署以及系统监控与维护等步骤。通过合理的规划和持续优化，可以确保机器学习系统在实际应用中表现出色，并长期保持良好的性能。

2025-02-14 11:30:00 333

原创第二章：13.4 迁移学习

迁移学习通过利用预训练模型的通用特征，帮助我们在数据量较少的情况下快速构建出性能良好的模型。它不仅节省了时间和计算资源，还促进了机器学习社区的协作与进步。此外，迁移学习的另一个优势是，许多研究人员已经在大规模数据集上训练了神经网络，并将这些预训练模型发布在网上供免费使用。这意味着你可以直接下载这些预训练模型，替换输出层，并根据自己的任务进行微调。通过这种方式，你可以利用其他研究人员的工作成果，快速构建出性能良好的模型。

2025-02-14 10:00:00 694

原创第二章：13.3 数据增强：提升机器学习模型性能的关键技术

数据增强是通过。

2025-02-14 08:15:00 795

原创第二章：13.2 错误分析在机器学习中的应用

错误分析是一种强大的工具，它可以帮助我们集中精力解决算法的主要弱点，并决定哪些改进措施最有希望提高模型性能。通过识别和解决最常见的错误类型，我们可以更有效地提升算法的准确性和可靠性。尽管存在局限性，但错误分析在指导模型改进方面仍然非常有价值。

2025-02-13 20:55:04 542

原创第二章：13.1 机器学习的迭代发展

在机器学习的发展循环中，对于如何修改模型或数据，可能会有许多想法。不同的诊断方法可以提供指导，帮助决定哪些想法最有希望尝试。通过不断迭代和优化，可以逐步提高模型的性能。

2025-02-12 22:20:53 1051

原创第二章：12.6 偏差或方差与神经网络

这种方法的核心思想是通过不断调整神经网络的规模和数据量来优化模型性能。具体步骤是：先通过增大网络规模减少偏差。再通过增加数据量减少方差。更大的神经网络：只要适当地进行正则化，使用更大的神经网络几乎没有坏处。它们可以提供更强的表达能力，更好地拟合复杂的函数，并且通常表现出低偏差的特性。正则化的实现：在TensorFlow中，可以通过在每一层中添加参数来实现L2正则化。适当的正则化可以防止过拟合，即使在计算上可能会稍微增加训练和推理的时间。低偏差特性。

2025-02-12 22:09:30 764

原创第二章：12.5 再次决定下一步做什么

高方差：需要通过简化模型或增加数据量来减少过拟合。高偏差：需要通过使模型更复杂或增加数据量来提高拟合能力。通过这些步骤，你可以更有效地调试和改进你的机器学习算法，使其在预测任务上表现得更好。记住，每种方法的效果可能因具体情况而异，因此实验和调整是关键。

2025-02-12 18:23:37 189

原创第二章：12.4 学习曲线

学习曲线展示了模型在不同训练集大小下的表现，帮助我们理解模型的泛化能力和过拟合风险。通过分析学习曲线，我们可以决定是否需要更多的训练数据，或者是否需要调整模型的复杂度以避免过拟合。对于二阶多项式模型，随着训练集的增大，训练错误可能会上升，因为模型越来越难以完美地拟合所有的训练示例，而交叉验证错误通常会随着训练数据的增加而下降，因为更多的数据有助于模型更好地学习数据的一般趋势。高偏差（High bias）是指模型过于简单，无法捕捉数据的复杂模式。

2025-02-12 17:54:10 1029

原创第二章：12.3 建立表现基准

语音识别是一种常见的机器学习应用，用户通过语音输入代替键盘输入，系统需要将语音转换为文本。在这个过程中，算法的性能可以通过训练误差和交叉验证误差来评估。训练误差（Jtrain）：指算法在训练数据集上无法正确转录的音频片段的百分比。在这个例子中，训练误差是10.8%，意味着算法在训练数据上犯了10.8%的错误。交叉验证误差（Jcv）：指算法在未见过的数据（交叉验证集）上无法正确转录的音频片段的百分比。在这个例子中，交叉验证误差是14.8%。基准性能水平 (Baseline performance)

2025-02-12 08:00:00 1209

原创第二章：12.2 正则化和偏差或方差

通过调整正则化参数 λ，我们可以控制模型的复杂度，从而影响模型的偏差和方差。小 λ 可能导致高方差（过拟合）而大 λ 可能导致高偏差（欠拟合）。通过交叉验证，我们可以找到一个合适的 λ 值，使得模型在训练集和验证集上都能有良好的表现，从而提高模型的泛化能力。

2025-02-11 20:35:33 660

原创第二章：12.1 诊断偏差和方差

偏差和方差的定义：偏差：指的是模型预测值与真实值之间的差异。高偏差意味着模型过于简单，无法捕捉数据的复杂性。方差：指的是模型对训练数据的敏感程度。高方差意味着模型过于复杂，对训练数据的噪声过于敏感。左边的图（高偏差，欠拟合）：模型：使用了非常简单的线性模型（直线），公式为 fw,b(x)=w1x+b。问题：这条直线无法很好地捕捉数据点的变化趋势，因为它太简单了。结果：模型在训练集和验证集上的表现都不好，训练误差（Jtrain）和交叉验证误差（Jcv）都很高。中间的图（刚好合适）：模型：使用了二次多项

2025-02-11 18:41:27 1061

空空如也

空空如也