机器学习模型与数据优化全解析
1. 辩论技巧与机器学习的联系
辩论俱乐部成员有时会坚定地为自己并不认同的一方辩论。这一技巧对于让机器学习算法(很多情况下也适用于其他算法)更好地工作至关重要。具体体现为:
- 收集事实性和重要的数据。
- 以多种方式论证不同的观点。
如果能收集重要或相关的数据输入模型,并尝试用不同方法解决同一问题,就能迭代找到最佳模型组合。接下来将探讨如何挑选更好的数据以及更有效地论证解决方案。
2. 挑选更好的数据
挑选数据时,我们希望找到最紧凑、最简单且能支持待解决问题的数据。有两种方法可改善使用的数据:特征选择和特征转换算法。挑选更好数据的动机在于,机器学习方法更适合与数据高度相关的低维数据。数据维度过多会导致过拟合、纠缠或跟踪不当等问题,因此找到最佳映射数据集很关键。
2.1 特征选择
以测量天气数据预测温度为例,考虑三个变量:“Matt的咖啡消费量”、“冰淇淋消费量”和“季节”,相关数据如下表:
| 平均温度 (°F) | Matt的咖啡消费量 (杯) | 冰淇淋消费量 (勺) | 月份 |
| — | — | — | — |
| 47 | 4.1 | 2 | 1月 |
| 50 | 4 | 2 | 2月 |
| 54 | 4 | 3 | 3月 |
| 58 | 4 | 3 | 4月 |
| 65 | 4 | 3 | 5月 |
| 70 | 4 | 3 | 6月 |
| 76 | 4 | 4 | 7月 |
| 76 | 4 | 4 | 8月 |
| 71 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



