数据分析三剑客
该篇文章主要对这三大模块做个简单介绍。
numpy
numpy 模块是 Python 支持对大量数组进行科学计算的第三方库。重在于数值计算,也是大部分python科学计算的基础,多用于在大型、多维数组上执行的数值运算。
- 引入numpy模块
import numpy as np //以别名np引入numpy模块
- numpy的创建
- 使用np.array()创建
arr=np.array([1,2,3]) //创建一维数组
arr=np.array([1,2,3],[4,5,6]) //创建多维数组
- 使用np的routines函数创建数组
1.np.ones() :用1填充数组
2.np.zeros():用0填充数组
3.np.full():用特定值填充数组
4.np.arange():生成顺序序列
5.np.eye():返回一个单位矩阵
6.np.random.randint(0,100,size=(3,2)):随机生成3行2列的数组 - 数组和列表的区别是什么?
1.数组中存储的数据元素必须是统一类型
2.优先级:字符串>浮点型>整型
3.numpy数组的执行效率比list高
4.numpy数组在创建时是固定大小的
pandas
1.Pandas 是 Python (opens new window)的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。
2.Pandas 的主要数据结构是 Series (opens new window)(一维数据)与 DataFrame (opens new window)(二维数据)
3.Pandas 基于 NumPy (opens new window)开发,可以与其它第三方科学计算支持库完美集成。
- 引入pandas模块
import pandas as pd
data=[1,2,3,4]
s=pd.Series(data)
matplotlib
1.Matplotlib 是 Python 的绘图库,它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式。
2.Matplotlib 可以用来绘制各种静态,动态,交互式的图表。
3.Matplotlib能够与 Python 的科学计算库 NumPy 搭配使用。
- 引入matplotlib.pyplot模块
1.Pyplot 是 Matplotlib 的子库,提供了和 MATLAB 类似的绘图 API。
2.Pyplot 是常用的绘图模块,能很方便让用户绘制 2D 图表。
3.Pyplot 包含一系列绘图函数的相关函数,每个函数会对当前的图像进行一些修改,例如:给图像加上标记,生新的图像,在图像中产生新的绘图区域等等。
import matplotlib.pyplot as plt //以别名plt引入matplotlib的子模块pyplot
- pyplot子模块的功能
- 以像素的形式展示二维数组
import matplotlib.pyplot as plt
import numpy as np
a=np.array([[20,21,22],[26,27,28]])
plt.imshow(a)
plt.show()
- 读取图片并显示
import matplotlib.pyplot as plt
img=plt.imread('./1.jpg')
plt.imshow(img)
plt.show()
- 画统计图
import matplotlib.pyplot as plt
x=[1,2,3,4,5,6,7]
y=[102,104,108,110,112,114,116]
plt.plot(x,y)
plt.show()