使用Python和Spark进行机器学习预测:关键算法与实践
1. 机器学习现状与本书目标
在现代商业中,从数据中提取可操作信息的需求正深刻影响着程序员。市场分析师预测,到2018年,对具备高级统计和机器学习技能人才的需求将超出供给14万至19万。这意味着拥有这些技能的人将获得丰厚的薪水和丰富的项目选择。同时,统计和机器学习核心工具的发展减轻了程序员手动编写复杂算法的负担。Python开发者在构建先进机器学习工具方面处于领先地位,但在工具使用效率上仍存在差距。
本书旨在为Python程序员填补这一差距,聚焦于两类经实践证明在多种问题中表现最优的算法家族:惩罚线性回归和集成方法。通过限制算法范围,详细阐述算法的操作原理,并提供多个不同结构问题的示例。
2. 适合人群与知识要求
本书面向希望将机器学习融入技能库的Python程序员,无论是为特定项目还是保持技能的相关性。它为Python程序员提供以下内容:
- 机器学习解决的基本问题描述
- 几种先进的算法
- 这些算法的操作原理
- 指定、设计和验证机器学习系统的流程步骤
- 流程和算法的示例
- 可修改的代码
要轻松阅读本书,需要具备编程或计算机科学的基础知识,能够读写代码。代码示例、库和包均为Python。此外,一定的数学和统计知识将有助于理解,包括本科水平的微积分、线性代数、矩阵运算,以及概率和统计概念,如均值、方差和相关性。
3. 两类关键算法概述
3.1 惩罚回归方法
惩罚回归方法通过在普通最小二乘法(OLS)的基础上添加系数惩罚项,来调节线性回归以实现
Python与Spark机器学习实战
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



