数据科学与Python:从基础到实践
1. 数据科学是什么
数据科学的定义很难明确,尽管它已无处不在。一些批评者认为这是多余的标签,毕竟所有科学都涉及数据;也有人觉得它只是用于美化简历、吸引招聘者的流行词。
但实际上,数据科学是跨学科技能的集合,在工业和学术的许多应用中变得越来越重要。Drew Conway的数据科学维恩图很好地诠释了这一点,数据科学由三个不同但相互重叠的领域组成:
- 统计学家的技能:能够对不断增大的数据集进行建模和总结。
- 计算机科学家的技能:可以设计和使用算法,高效地存储、处理和可视化数据。
- 领域专业知识:用于提出正确的问题,并将答案置于具体情境中。
我们应将数据科学视为一套可应用于当前专业领域的新技能,无论是报告选举结果、预测股票收益、优化在线广告点击,还是在其他领域处理数据,掌握数据科学都能帮助我们提出并回答新问题。
2. 适合人群
常有人问如何学习Python,提问者通常是有技术头脑的学生、开发者或研究人员,他们有编写代码和使用计算工具的基础,想将Python作为数据密集型和计算科学的工具。但网上缺乏系统的学习资料,这促使了相关内容的产生。
这里不适合Python初学者,假定读者已熟悉Python语言,包括定义函数、赋值变量、调用对象方法、控制程序流程等基本操作。其目的是帮助Python用户学习使用Python的数据科学库,如IPython、NumPy、Pandas、Matplotlib、Scikit-Learn等,以有效地存储、操作数据并获取洞察。
3. 为何选择Python
过去几十年,Python已成为科
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



