机器学习基础入门
机器学习在当今科技领域中占据着至关重要的地位,它可以大致分为监督学习和无监督学习。监督学习意味着系统借助有标签的训练数据进行学习,就像给系统展示一组带有猫和狗标签的图片,让它识别猫和狗的特征。而无监督学习则是将数据分组到相似的类别中,例如输入一组猫和狗的图片,不说明每张图片所属类别,让系统根据图片的相似性进行分组。
1. 回归与分类
- 回归 :回归通常用于预测连续变量。例如,预测某个地区夏季每周可乐的销售数量,其值可能在100万到120万单位之间。线性回归就是预测连续变量的典型技术。
- 分类 :分类用于预测具有少数不同结果的事件,比如预测一天是晴天还是雨天。逻辑回归是预测离散变量的典型技术。此外,决策树、随机森林、梯度提升机(GBM)、神经网络等技术也可用于预测连续和离散结果。
下面用表格展示回归和分类的区别:
| 类型 | 适用场景 | 典型技术 |
| ---- | ---- | ---- |
| 回归 | 预测连续变量,如可乐销量 | 线性回归 |
| 分类 | 预测离散结果,如天气情况 | 逻辑回归 |
2. 训练数据与测试数据
在回归问题中,常常会遇到泛化和过拟合的问题。当模型过于复杂,能够完美拟合所有数据点,导致误差率极小,就会出现过拟合现象。例如,在一个数据集中,直线不能完美拟合所有数据点,而曲线可以,但直线在新数据集上更具泛化能力。
随着模型复杂度的增加,未见过的数据点(即测试数据)的误差率会先降低,然后开始上升,而训练数
超级会员免费看
订阅专栏 解锁全文
17万+

被折叠的 条评论
为什么被折叠?



