写在最前面:此学习笔记主要对机械工业出版社出版的《利用Python进行数据分析·第2版》,及SeanCheney在简书平台上对此书的翻译内容进行学习和记录。
第一章 准备工作
1.1 本书的内容
- Python分析的数据:结构化数据(structured data)
- 表格型数据,其中各列可能是不同的类型(字符串、数值、日期等)。比如保存在关系型数据库中或以制表符/逗号为分隔符的文本文件中的那些数据。
- 多维数组(矩阵)。
- 通过关键列(对于SQL用户而言,就是主键和外键)相互联系的多个表。
- 间隔平均或不平均的时间序列。
1.2 为什么要使用Python进行数据分析
- Python作为胶水语言
Python成为成功的科学计算工具的部分原因是,它能够轻松地集成C、C++以及Fortran代码。大部分现代计算环境都利用了一些Fortran和C库来实现线性代数、优选、积分、快速傅立叶变换以及其他诸如此类的算法。
- 解决“两种语言”问题
很多组织通常都会用一种类似于领域特定的计算语言(如SAS和R)对新想法做研究、原型构建和测试,然后再将这些想法移植到某个更大的生产系统中去(可能是用Java、C#或C++编写的)。人们逐渐意识到,Python不仅适用于研究和原型构建,同时也适用于构建生产系统。为什么一种语言就够了,却要使用两个语言的开发环境。
1.3 重要的Python库
- NumPy </