传统监督学习算法详解
1. 监督学习基础
在监督学习中,我们通常会有一个完整的数据集。假设我们有一个包含 50 个房屋数据的数据集 D,可表示为 ( D = {(X^{(1)},y^{(1)}), (X^{(2)},y^{(2)}), … , (X^{(50)},y^{(50)})} )。我们可以将其划分为训练集和测试集,比如用 40 个房屋数据进行训练,剩下 10 个用于测试。训练集 ( D_{train} ) 就是前 40 个示例:( {(X^{(1)},y^{(1)}), (X^{(2)},y^{(2)}), … , (X^{(40)},y^{(40)})} ),而测试集 ( D_{test} ) 则是剩下的 10 个示例:( {(X^{(41)},y^{(41)}), (X^{(42)},y^{(42)}), … , (X^{(50)},y^{(50)})} )。同时,还有一个包含所有实际房屋价格的向量 Y:( Y = { y^{(1)}, y^{(2)}, ....., y^{(50)}} )。
监督学习算法要正常运行,需要满足以下几个必要条件:
- 足够的示例 :监督学习算法需要足够多的示例来训练模型。当我们有确凿证据表明数据集中充分体现了我们感兴趣的模式时,就可以认为示例足够了。
- 历史数据中的模式 :用于训练模型的示例需要包含模式。我们感兴趣的事件发生的可能性应该依赖于模式、趋势和事件的组合。在模型中,标签在数学上代表了我们感兴趣的事件。如果没有这些,我们处理的就是随机数据,无法用于训练模型。
- 有效的假设 :当我们使用示例训练监督学习模
超级会员免费看
订阅专栏 解锁全文
1024

被折叠的 条评论
为什么被折叠?



