机器学习:原理、应用与实践
1. 机器学习中的关键概念
1.1 过拟合
在构建机器学习模型时,即使预测变量之间没有关联,使用较少的变量通常也是有益的。复杂模型或使用大量预测变量的模型往往会出现过拟合问题。过拟合的模型在训练数据集上表现良好,但在验证集和现实场景中的准确性较低,因为它们学习到的是数据中的误差(即噪声),而非变量之间的信号或关系。
1.2 生产力
即使复杂的机器学习模型中的所有变量都相关,使用大量预测变量也会对生产力产生实际影响。实际考虑因素包括可用数据量、对存储和计算资源的后续影响、相关成本、项目分配的时间以及学习和验证所需的时间。可以通过特征选择来识别预测变量,或通过特征提取对其进行转换。在数据维度增加的情况下,支持向量机(SVM)很有用。
1.3 帕累托原则
帕累托原则(或 80/20 规则)指出,大约 80% 的效果来自 20% 的原因。许多自然现象在经验上都表现出这种分布。在机器学习项目中,运用帕累托原则,专注于 20% 最重要的预测变量,有助于在合理的时间内构建相对成功的模型。
1.4 可理解性
具有较少预测变量的模型更易于可视化、理解和解释。成功的机器学习项目的一个关键方面是所有利益相关者都能理解模型。这通常需要数据科学家进行权衡。减少预测变量的数量可能会降低机器学习模型的成功率,但同时会使模型更易于解释和理解。这种方法的实用性在项目后期体现出来,不仅可以分享模型的性能,还能说明其工作原理。这在医疗保健领域尤为重要,因为人们对使用黑盒模型存在担忧。
1.5 准确性
任何机器学习模型都旨在实现良好的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



