Python数据科学全解析:从基础到实战
1. 数据科学概述
数据科学是一个难以准确定义的概念。有人认为它是多余的标签,或是吸引招聘者眼球的流行语。但实际上,数据科学是跨学科技能的集合,在工业和学术界的众多应用中变得越来越重要。
Drew Conway 的数据科学维恩图很好地诠释了数据科学的本质。它由三个相互重叠的领域组成:
- 统计学家的技能,能够对不断增长的数据集进行建模和总结。
- 计算机科学家的技能,可以设计和使用算法来高效地存储、处理和可视化数据。
- 领域专业知识,即对特定学科的“经典”训练,这对于提出正确的问题并将答案置于合适的背景中至关重要。
数据科学并非是一个全新的知识领域,而是一套可以应用于现有专业领域的新技能。无论你是在报告选举结果、预测股票回报、优化在线广告点击,还是在其他任何领域处理数据,数据科学都能帮助你提出并回答新问题。
2. 适用人群
对于那些经常被问到“如何学习 Python”的技术型学生、开发者或研究人员来说,他们通常已经具备编写代码和使用计算及数值工具的强大背景。他们学习 Python 的目的是将其作为数据密集型和计算科学的工具。本书并非 Python 或编程的入门指南,而是帮助 Python 用户学习使用 Python 的数据科学栈,包括 IPython、NumPy、Pandas、Matplotlib、Scikit-Learn 等库,以有效地存储、操作数据并从中获取洞察。
3. 选择 Python 的原因
在过去的几十年里,Python 已成为科学计算任务(包括大型数据集的分析和可视化)的一流工具。尽管 Python 本身并
超级会员免费看
订阅专栏 解锁全文
11万+

被折叠的 条评论
为什么被折叠?



