工程师统计学习入门:原理与应用
1. 统计学习简介
统计学习是机器学习的一个分支,专注于通过机器学习算法进行数据分析的统计方面。在工程研究和实践中,它具有重要的应用价值。
统计学是现代机器学习的根源之一,特别是非参数统计学科。早在40多年前,非参数统计就发展出了许多至今仍相关的概念和思想,如基于树的学习、局部平滑、交叉验证和自助法等重采样技术。借助当时计算技术的进步,人们得以摆脱经典统计学的限制框架。经典统计学主要基于数据生成过程的模型,这些模型除了少数可管理的参数外完全确定,参数可从过去常见的中小规模数据集中估计。但研究人员意识到,这些模型只是对真实情况的近似,特别是在非理想实验室条件下的现实场景中,模型误设可能导致数据分析结果不理想甚至错误。非参数统计为数据生成过程提供了更广泛的视角,这也是现代机器学习方法的基础。
过去三十年,统计学习取得了显著进展,这得益于计算机科学与统计学的合作,以及数据收集、组织和处理计算设施的快速发展。基于机器学习的数据分析,除了必要的硬件外,还需要以下要素:
1. 合适数据的准备 :为后续分析提供基础。
2. 灵活模型的指定 :用于解决感兴趣的任务,如依赖大量未知参数的神经网络。
3. 学习过程 :从数据中估计模型参数,通常需要解决复杂的优化问题,这需要适应手头硬件的高效训练或估计算法。
4. 结果的验证和解释 :确保结果的可靠性和可理解性。
完成这些任务需要科学或工程领域、计算机科学、统计学以及优化和数值分析等领域专家的共同努力。在工业应
超级会员免费看
订阅专栏 解锁全文
18万+

被折叠的 条评论
为什么被折叠?



