机器学习理论、实践与模型评估
1. 机器学习的现状与未来趋势
在当今快节奏的世界里,决策速度比决策质量更为重要。这部分是由竞争环境所驱动,部分是由于延迟决策会带来成本。在线机器学习工具和技术在未来的机器学习领域必将崛起。行业和研究人员需要共同努力,创建优雅的算法,以及能够处理高容量和高速度数据流的硬件和软件。
2. 模型构建前的检查清单
在开展任何机器学习项目之前,需要考虑一系列问题。这份检查清单虽然看起来繁多且杂乱,但如果在构建机器学习模型之前理清这些问题的答案,可能会节省 40% - 60% 的时间。具体问题如下:
1. 你希望通过这个问题实现什么目标?是进行预测、估计值、寻找模式还是仅仅进行探索?
2. 数据集中每个变量的类型是什么?是全数值型、分类型还是混合型?
3. 你是否已经确定了响应(输出)变量和预测(输入)变量?
4. 数据中是否存在大量缺失值和异常值?
5. 如果不使用机器学习算法,你将如何解决这个问题?是否可以通过简单的统计和可视化方法来探索数据,从而在不使用机器学习的情况下找到问题的答案?
6. 箱线图、直方图或散点图是否显示了数据中的有趣见解?
7. 你是否计算了所有数值变量的标准差、四分位数、均值和相关性指标?这些指标是否显示了任何有趣的信息?
8. 你的数据集有多大?你的问题是否需要使用完整的数据,还是小样本就足够了?
9. 是否有足够的计算资源(RAM、存储和 CPU)来运行任何机器学习算法?
10. 你认为当前的数据是否可能很快过时,并且机器学习模型在构建后不久是否需要更新?
11. 是否有计划基于最终的机器学习模型构建数据产品? </