机器学习入门:概念、算法与应用解析
1. 什么是机器学习
机器学习与统计模型各有优劣。统计模型在把握数据集中关系的类型上存在局限,但具有透明性;而机器学习则恰恰相反。以下是统计模型与机器学习模型的对比:
| 对比项目 | 统计模型 | 机器学习 |
| — | — | — |
| 可解释性 | 白盒 | 黑盒 |
| 复杂度 | 较简单 | 更复杂 |
| 需求驱动因素纳入难度 | 困难 | 简单 |
| 数据需求 | 有限 | 广泛 |
| 预期准确性 | 较低 | 较高 |
需要注意的是,人工智能(AI)并没有严格清晰的定义。对于数据科学家来说,机器学习的范畴通常是明确的。有个玩笑说,如果用 Python 编写的就是机器学习,如果用 PowerPoint 展示的就是人工智能。一般而言,对于那些声称在做人工智能的人要保持谨慎,因为这个术语常被用于推销过度承诺的软件或项目。
这里讨论的内容不适用于线性回归(包括 Lasso、Ridge 和 ElasticNet 等高级版本),通常不将其视为机器学习。一些从业者和软件供应商将 ARIMA 或 Prophet 视为机器学习,这种说法并不准确,应将这些模型归类为统计模型。而森林、梯度提升树和各类神经网络等模型则属于机器学习的范畴。
2. 机器如何学习
机器学习算法会遍历按数据特征排序的数据集,并尝试找出这些数据特征与期望输出之间的潜在关系。以预测未来需求为例,模型可能会参考历史销售数据、短缺情况以及未来几天的天气预报。
数据特征是模型用于进行预测的一类信息。例如,若要利用天气预报和近期在线搜索量来预测明天
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



