【10000字pandas数据可视化超全笔记整理】Numpy Pandas | 常用API介绍 | 缺失值处理 matplotlib数据可视化介绍

Numpy 部分

NumPy的数组类被称作ndarray,通常被称作数组。

属性

ndim 维度(几轴)
shape 形状
dtype 数据类型
size 大小(元素个数)
type 数组类型

创建方法

zeros() 创建一个全是0的数组
ones() 创建一个全是1的数组
empty() 创建一个内容随机并依赖于内存状态的数组

arange() 创建一个一维的ndarray数组
matrix() 生成一个二维矩阵

logspace(参1,参2,参3) 等比数列 参1 : 起始点 参2: 结束点 参3: 步长
linspace(参1,参2,参3) 等差数列 参1 : 起始点 参2: 结束点 参3: 步长

内置函数

  • 基本函数
ceil() 天花板数 向上取整
floor() 地板数 向下取整
rint() 四舍五入 
isnan() 判断是否为空(NAN)
multiply() 元素相乘
divide() 元素相除
abs() 绝对值
where(condition , x, y) 三元运算符 x if condition else y
  • 统计函数
mean() 平均值
sum() 和
max() 最大值
min() 最小值
std() 标准差
var() 方差
argmax() argmin() 最大值 最小值 的下标索引值
cumsum() 累加和
cumprod() 累乘积
  • 比较函数
any() 一个元素满足 返回True
all() 所有元素满足 返回 True
  • 去重函数
unique() 找到唯一值并返回排序结果
  • 排序函数
sort()
np.sort() 返回排序后的副本
ndarray对象.sort() 直接对 ndarray对象排序

运算

基本运算

两个ndarray, 一个是arr_a 另一个是arr_b

它们俩之间进行 arr_a + arr_b 或 arr_a - arr_b 或 arr_a * arr_b 这样计算的前提是 shape相同

计算的时候, 位置对应的元素 进行 加减乘除的计算, 计算之后得到的结果的shape 跟arr_a /arr_b 一样

数组a [20 30 40 50]
数组b [0 1 2 3]
a-b [20 29 38 49]
矩阵运算

​ 前提是 a的行数 = b的列数 b的行数 = a的列数

a的第几行 * b 的第几列 元素相加 填入对应的结果集中

Pandas部分

总述

pandas存储时没有行只有列 每列为一个Series对象 多个Series对象组成一个DataFrame

请添加图片描述

  • DataFrame 可以看作由Series 对象 组成的字典 key是列名 值是Series
  • Serise 与 列表非常相似 存储一列信息

Serise 对象

创建

创建方式 pandas.Series(值,参数)
指定索引 参数 index = [值1,值2]
值可以是字典/ndarray/列表/元组等

属性

loc 使用索引值取子集
iloc 使用索引位置取自己
dtype series内容的类型
T 转置矩阵
shape 维度
size 元素数量
values 值
index 索引值

方法

append 连接两个或多个series
corr 计算与另一个series 的相关系数
cov 计算与另一个series 的协方差
describe 计算常见统计量
drop_duplicates 返回去重后的series
equals 判断两个series 是否相同
get_values 获取series 的值 作用与values 属性相同
hist 直方图
isin 判断是否包涵某些值
min max 最小值 最大值
mean 算数平均值
median 中位数
mode 众数
quantile 返回指定位置的分位数
replace 用指定值代替series中的值
sample 返回随机采样值
sort_values 对值进行排序
to_frame series转化为dataframe
unique 去重返回数组
value_counts 统计不同值数量
keys 获取索引值
head tail 查看前五个 后五个值

运算

​ series 计算时 变量会和series中的每个元素逐一计算

​ 两个series 之间计算时 索引值相同的互相计算 不同的位置返回nan

DataFrame

可以通过字典 / 列表+ 元组等方式创建

属性
shape 维度
size 元素个数
values 数据值
ndim 维度数
dtypes 元素类型
index 索引值
columns 列名对象
head tail 前 后 五行数据
info 基本信息
describe 描述信息
len 行数
min max 最小最大
count 非空值个数
mean 平均值
索引操作
set_index() 设置索引列
reset_index() 重置索引列
rename() 修改行索引 列索引名 参数 index 行索引 columns 列索引
添加删除插入列
 df[列名] = 值   可以给df对象新增一列, 默认: 在df对象的最后添加一列.\
 drop(名称 , axis = 行/列)  删除一行或列 根据 axis 参数 删 rows 0 行 columns 1 列
 也可以drop([行索引1,行索引2]) 按行索引删除
 insert() 表示插入列.   参数解释: loc:插入位置(从索引0开始计数), column=列名, value=值

保存读取文件

保存
to_pickle('路径名')  保存为 pickle文件 
to_csv('路径名')  保存为csv文件
to_excel('路径名') 保存为 excel文件

pandas 读写excel需要额外安装

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xlwt
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple openpyxl
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xlrd

读取
read_pickle('路径名')  读取 pickle文件 
read_csv('路径名')  读取csv文件
read_excel('路径名') 读取 excel文件

数据加载

df对象[['列名1', '列名2', '列名3'...]] 按列加载数据
df对象.loc[[行索引],[列名]] 按行加载数据
df对象.loc[:,[列名]] 获取所有行的某些列
df对象.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值