【西瓜书】第一二章笔记

最新推荐文章于 2025-12-16 15:33:17 发布

原创最新推荐文章于 2025-12-16 15:33:17 发布 · 520 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

机器学习专栏收录该内容

10 篇文章

订阅专栏

耽于学业，选择速记，后续再补。本笔记质量不高，敬请谅解。

关键词：

监督学习（Supervised Learning）：一种机器学习范式，其中模型在带有标签的数据集上进行训练。标签提供了正确的答案，算法通过对比预测结果与实际标签，调整模型参数以最小化误差。监督学习主要包括分类和回归两种任务。
模型（Model）：在机器学习中，模型是用来表示输入数据与输出结果之间关系的数学结构。模型可以是线性的，也可以是非线性的，复杂程度各不相同。模型的选择和训练是机器学习中的核心部分。
学习算法（Learning Algorithm）：用于从数据中自动构建模型的算法。学习算法通过优化某个目标函数，调整模型参数，使得模型在给定任务上表现得尽可能好。常见的学习算法包括线性回归、决策树、神经网络等。
过拟合（Overfitting）：模型在训练数据上表现得非常好，但在新数据上表现不佳的现象。过拟合通常是由于模型过于复杂，捕捉了训练数据中的噪声和细节，从而无法泛化到新的数据。
欠拟合（Underfitting）：模型在训练数据和新数据上都表现不佳的现象。这通常是由于模型过于简单，无法捕捉数据中的重要模式和结构，导致其预测能力有限。
归纳偏好（Inductive Bias）：指学习算法在训练过程中所遵循的假设或偏好。这些假设帮助算法在有限的数据上做出合理的泛化。归纳偏好决定了算法在面对不同数据时的表现，是影响模型泛化能力的重要因素。例如，“奥卡姆剃刀”原则是一种常见的归纳偏好，主张选择假设空间中最简单的模型。
泛化（Generalization）：指模型在处理未见过的新数据时的表现能力。一个模型的泛化能力决定了它是否能够从训练数据中学到对新数据同样适用的规律。泛化能力好的模型在训练数据和测试数据上都有良好的表现，而不过拟合或欠拟合。评估泛化能力的常用方法包括交叉验证和使用独立的验证集或测试集。
机器学习三要素：模型、策略、算法。

机器学习是研究如何使计算机通过数据自动产生模型的算法。它不仅关注于模型的构建，还涉及如何评估这些模型的有效性，以及如何避免模型在训练数据上表现优异但在新数据上表现不佳的问题——也就是过拟合和欠拟合的平衡。

开篇强调了机器学习的本质：通过算法从数据中提取知识。在介绍监督学习时，清晰地区分了分类和回归两种主要任务，为后续更深入的学习打下了理论基础。过拟合和欠拟合的概念，如同机器学习领域中的双刃剑，一方面要求模型足够复杂以捕捉数据中的模式，另一方面又需要模型保持简洁以防过度依赖于训练数据的噪声。这种平衡的寻找，体现了机器学习实践中的艺术性和科学性并存的特点。归纳偏好概念，更是揭示了所有学习算法背后的哲学思考，即在面对无限可能的假设空间时，如何基于有限的训练数据做出合理的选择，这一点在“奥卡姆剃刀”原则中得到了体现，强调了简单性的重要性。