深入机器学习核心:数据泛化与模型优化
1. 数据泛化
数据在当今世界极为丰富,但处理起来颇具挑战,其根源在于数据的多样性和噪声。人类通常处理通过耳朵和眼睛接收的数据,这些输入会转化为电信号或化学信号;计算机和机器人同样基于电信号工作,最终将其转换为二进制的 0 和 1。在实际编程中,我们常用 Python 语言,数据一般以数字、图像或文本的形式呈现。由于图像和文本处理不便,通常需将它们转换为数值。
在监督学习中,这类似于备考过程。我们有练习题集(训练集或训练样本)和实际考试(测试集或测试样本)。我们应具备在不知答案的情况下解答考试问题的能力,这就是泛化——从练习题中学习知识,并将其应用于类似问题。有时,为评估在实际考试中的表现并辅助复习,会进行模拟考试,在机器学习里,这被称为验证集或验证样本,它有助于验证模型在模拟环境中的性能,进而对模型进行微调以提高准确率。
传统程序员会与业务分析师或其他专家交流,然后实现特定的规则,例如税收规则。而在机器学习中,我们可以给计算机提供大量输入输出示例,甚至直接输入实际的税收文本,让机器自行分析数据并找出规则,就像自动驾驶汽车无需大量明确的人工输入一样。
在物理学中,我们也有类似情况。我们试图用数学语言描述宇宙规律,但由于不知道实际函数,只能测量误差并尽量减小它。在监督学习任务中,我们将结果与预期值进行比较;在无监督学习中,通过相关指标衡量成功与否,如数据聚类的清晰度;在强化学习中,程序会根据预定义函数评估行动,例如在国际象棋游戏中。
2. 过拟合、欠拟合与偏差 - 方差权衡
- 过拟合 :过拟合指模型对现有观测数据拟合过好,但无法预测
机器学习泛化与过拟合解决方案
超级会员免费看
订阅专栏 解锁全文
1726

被折叠的 条评论
为什么被折叠?



