3、深入机器学习核心：数据泛化与模型优化

机器学习泛化与过拟合解决方案

最新推荐文章于 2025-12-01 23:20:33 发布

电竞养老选手

最新推荐文章于 2025-12-01 23:20:33 发布

阅读量51

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战指南文章标签：机器学习数据泛化过拟合

本文链接：https://blog.youkuaiyun.com/tensor9flow/article/details/151216193

机器学习实战指南专栏收录该内容

33 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深入机器学习核心：数据泛化与模型优化

1. 数据泛化

数据在当今世界极为丰富，但处理起来颇具挑战，其根源在于数据的多样性和噪声。人类通常处理通过耳朵和眼睛接收的数据，这些输入会转化为电信号或化学信号；计算机和机器人同样基于电信号工作，最终将其转换为二进制的 0 和 1。在实际编程中，我们常用 Python 语言，数据一般以数字、图像或文本的形式呈现。由于图像和文本处理不便，通常需将它们转换为数值。

在监督学习中，这类似于备考过程。我们有练习题集（训练集或训练样本）和实际考试（测试集或测试样本）。我们应具备在不知答案的情况下解答考试问题的能力，这就是泛化——从练习题中学习知识，并将其应用于类似问题。有时，为评估在实际考试中的表现并辅助复习，会进行模拟考试，在机器学习里，这被称为验证集或验证样本，它有助于验证模型在模拟环境中的性能，进而对模型进行微调以提高准确率。

传统程序员会与业务分析师或其他专家交流，然后实现特定的规则，例如税收规则。而在机器学习中，我们可以给计算机提供大量输入输出示例，甚至直接输入实际的税收文本，让机器自行分析数据并找出规则，就像自动驾驶汽车无需大量明确的人工输入一样。

在物理学中，我们也有类似情况。我们试图用数学语言描述宇宙规律，但由于不知道实际函数，只能测量误差并尽量减小它。在监督学习任务中，我们将结果与预期值进行比较；在无监督学习中，通过相关指标衡量成功与否，如数据聚类的清晰度；在强化学习中，程序会根据预定义函数评估行动，例如在国际象棋游戏中。