利用python进行数据分析(其一)
本文实验环境、工具:anoconda,Jupyter notebook,python3.6
NumPy基础
NumPy (Numerical Python) 是Python关于数值计算最重要的基础包,可以构建科学计算的库包。
NumPy主要功能:
1.ndarry,具有矢量算数运算和复杂广播能了的多维数组。
2.对整组数据进行快速运算(无需编写循环)
3.用来读写磁盘数据以及操作内存映射文件
4.线性代数、随机数生成和傅里叶变换功能
5.集成由C、C++和Fortran等编写代码的API
其中,NumPy本身没有提供高级的数据分析能力,对于大部分数据分析应用来说,笔者主要研究以下功能:
1.用于数据整理和清理、子集构造和过滤、转换等快速的矢量化数组运算。
2.常用的数组算法:排序、唯一化、集合运算等。
3.高效的描述统计和数据聚合/摘要运算。
4.用于异构数据集的合并/连接运算的数据对齐和关系型数据运算。
5.将条件逻辑表述为数组表达式(非if-elif-else分支循环)。
6.数据的分组运算(聚合、转换、函数应用)
NumPy的ndarray:一种多维数组对象
ndarray[N维数组对象]是NumPy最重要的一个特点,它是一个快速且灵活的大数据集容器。据此,可以对整块数据做一些数学运算。
Numpy的标准使用是import NumPy as n