准备
电子书籍获取
链接:https://github.com/wangyingsm/Python-Data-Science-Handbook.
环境
win10操作系统
Python3以上环境编写和测试,使用的是Anaconda发行版中的Jupyter notebook以及Spyder。
一般我是查看某些功能、语句效果,学某些语法就用命令行,然后写demo就用Spyder,管理学习资料用Jupyter notebook。这些都看个人啦。
大纲
书籍中的每一章都聚集于一个特定的包或工具,他们对于数据科学某一方面都有重要的应用和帮助,同时我的读书笔记就是总结以及用朴素简洁的语言来描述。
IPython和Jupyter
这两个包提供了计算环境,简而言之就是我们的编程环境。
NumPy
这个包提供了ndarray对象,用于有效的存储和处理数组中的稀疏数据。即我们如何存取数据、操作数据。
NumPy快速入门
Pandas
这个包提供了DataFrame对象,用于有效存储和处理标签化的基于列结构的数据。即我们如何存取数据、操作数据。
Matplotlib
这个包提供了数据图表展示功能。即将数据可视化,方便我们对项目的改进。
Scikit-Learn
这个包提供了机器学习算法以及python的实现。便于以后的机器学习
这里建议先学习机器学习实现手撸代码理解底层原理,然后再对应学习sklearn库的使用。
同时学习机器学习的过程也就熟悉掌握了前面三个库的使用。
Tip
同时本作者还增加了快速使用教学,方便读者有大概的认识以及能快速上手项目,读者可后续再进行仔细深入地阅读理解。
切记多动手实践