3、机器学习基础：从木瓜品尝问题谈起

机器学习基础与ERM原理

yolo5detector

于 2025-09-28 16:37:57 发布

阅读量8

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习的理论与实践文章标签：机器学习统计学习框架经验风险最小化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/yolo5detector/article/details/154560970

机器学习的理论与实践专栏收录该内容

44 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习基础：从木瓜品尝问题谈起

1. 问题引入

想象你刚到一个太平洋小岛，发现木瓜是当地饮食的重要组成部分，但你从未尝过木瓜。你需要学习预测市场上的木瓜是否美味。基于以往对其他水果的经验，你决定依据木瓜的颜色（从深绿到橙、红再到深棕）和软硬度（从硬如岩石到软烂）这两个特征来进行预测。你通过检查一些木瓜的颜色和软硬度，品尝后确定其是否美味，以此作为输入来制定预测规则。这一过程展示了学习问题中的基本考量。

2. 正式模型：统计学习框架

2.1 学习者的输入

定义域集合（Domain set） ：用 $X$ 表示，是我们希望进行标记的对象集合。例如在木瓜学习问题中，$X$ 就是所有木瓜的集合。通常，这些定义域点会用特征向量（如木瓜的颜色和软硬度）来表示，我们也将定义域点称为实例，$X$ 称为实例空间。
标签集合（Label set） ：在当前讨论中，我们将标签集合限制为二元集合，通常是 ${0, 1}$ 或 ${-1, +1}$，用 $Y$ 表示可能的标签集合。在木瓜示例中，$Y = {0, 1}$，其中 $1$ 表示美味，$0$ 表示不美味。
训练数据（Training data） ：$S = ((x_1, y_1), \cdots, (x_m, y_m))$ 是 $X \times Y$ 中的有限对序列，即标记的定义域点序列。这是学习者可以获取的输入（如一组已品尝过的木瓜及其颜色、软硬度和美味程度），这样的标记示例通常称为训练示例，我们有时也将 $S$ 称为训练集。

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。