跟着木东居士大佬学数据知识
重要的Python库
1.NumPy
NumPy(Numerical Python的简称)是Python科学计算的基础包。它主要提供了以下功能:
-
快速高效的多维数组对象ndarray。
-
用于对数组执行元素级计算以及直接对数组执行数学运算的函数。
-
用于读写硬盘上基于数组的数据集的工具。
-
线性代数运算、傅里叶变换,以及随机数生成。
-
用于将C,C++,Fortran代码集成到Python的工具。
除了为Python提供快速的数组处理能力,NumPy在数据分析方面还有另一个主要作用,即作为在算法之间传递数据的窗口。对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多。此外,对于底级语言(比如 C和Fortran)编写的库可以直接操作NumPy。
2.pandas
pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。它是使Python成为强大而高效的数据分析环境的重要因素之一。其中中,DataFrame是用得最多的对象,是一个面向列(column-oriented)的二维表结构,且含有行标和列标。
pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能。它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。
安装
1.官网上安装最新版Pyth