Numpy 部分
NumPy的数组类被称作ndarray,通常被称作数组。
属性
ndim 维度(几轴)
shape 形状
dtype 数据类型
size 大小(元素个数)
type 数组类型
创建方法
zeros() 创建一个全是0的数组
ones() 创建一个全是1的数组
empty() 创建一个内容随机并依赖于内存状态的数组
arange() 创建一个一维的ndarray数组
matrix() 生成一个二维矩阵
logspace(参1,参2,参3) 等比数列 参1 : 起始点 参2: 结束点 参3: 步长
linspace(参1,参2,参3) 等差数列 参1 : 起始点 参2: 结束点 参3: 步长
内置函数
- 基本函数
ceil() 天花板数 向上取整
floor() 地板数 向下取整
rint() 四舍五入
isnan() 判断是否为空(NAN)
multiply() 元素相乘
divide() 元素相除
abs() 绝对值
where(condition , x, y) 三元运算符 x if condition else y
- 统计函数
mean() 平均值
sum() 和
max() 最大值
min() 最小值
std() 标准差
var() 方差
argmax() argmin() 最大值 最小值 的下标索引值
cumsum() 累加和
cumprod() 累乘积
- 比较函数
any() 一个元素满足 返回True
all() 所有元素满足 返回 True
- 去重函数
unique() 找到唯一值并返回排序结果
- 排序函数
sort()
np.sort() 返回排序后的副本
ndarray对象.sort() 直接对 ndarray对象排序
运算
基本运算
两个ndarray, 一个是arr_a 另一个是arr_b
它们俩之间进行 arr_a + arr_b 或 arr_a - arr_b 或 arr_a * arr_b 这样计算的前提是 shape相同
计算的时候, 位置对应的元素 进行 加减乘除的计算, 计算之后得到的结果的shape 跟arr_a /arr_b 一样
数组a [20 30 40 50]
数组b [0 1 2 3]
a-b [20 29 38 49]
矩阵运算
前提是 a的行数 = b的列数 b的行数 = a的列数
a的第几行 * b 的第几列 元素相加 填入对应的结果集中
Pandas部分
总述
pandas存储时没有行只有列 每列为一个Series对象 多个Series对象组成一个DataFrame
- DataFrame 可以看作由Series 对象 组成的字典 key是列名 值是Series
- Serise 与 列表非常相似 存储一列信息
Serise 对象
创建
创建方式 pandas.Series(值,参数)
指定索引 参数 index = [值1,值2]
值可以是字典/ndarray/列表/元组等
属性
loc 使用索引值取子集
iloc 使用索引位置取自己
dtype series内容的类型
T 转置矩阵
shape 维度
size 元素数量
values 值
index 索引值
方法
append 连接两个或多个series
corr 计算与另一个series 的相关系数
cov 计算与另一个series 的协方差
describe 计算常见统计量
drop_duplicates 返回去重后的series
equals 判断两个series 是否相同
get_values 获取series 的值 作用与values 属性相同
hist 直方图
isin 判断是否包涵某些值
min max 最小值 最大值
mean 算数平均值
median 中位数
mode 众数
quantile 返回指定位置的分位数
replace 用指定值代替series中的值
sample 返回随机采样值
sort_values 对值进行排序
to_frame series转化为dataframe
unique 去重返回数组
value_counts 统计不同值数量
keys 获取索引值
head tail 查看前五个 后五个值
运算
series 计算时 变量会和series中的每个元素逐一计算
两个series 之间计算时 索引值相同的互相计算 不同的位置返回nan
DataFrame
可以通过字典 / 列表+ 元组等方式创建
属性
shape 维度
size 元素个数
values 数据值
ndim 维度数
dtypes 元素类型
index 索引值
columns 列名对象
head tail 前 后 五行数据
info 基本信息
describe 描述信息
len 行数
min max 最小最大
count 非空值个数
mean 平均值
索引操作
set_index() 设置索引列
reset_index() 重置索引列
rename() 修改行索引 列索引名 参数 index 行索引 columns 列索引
添加删除插入列
df[列名] = 值 可以给df对象新增一列, 默认: 在df对象的最后添加一列.\
drop(名称 , axis = 行/列) 删除一行或列 根据 axis 参数 删 rows 0 行 columns 1 列
也可以drop([行索引1,行索引2]) 按行索引删除
insert() 表示插入列. 参数解释: loc:插入位置(从索引0开始计数), column=列名, value=值
保存读取文件
保存
to_pickle('路径名') 保存为 pickle文件
to_csv('路径名') 保存为csv文件
to_excel('路径名') 保存为 excel文件
pandas 读写excel需要额外安装
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xlwt
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple openpyxl
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple xlrd
读取
read_pickle('路径名') 读取 pickle文件
read_csv('路径名') 读取csv文件
read_excel('路径名') 读取 excel文件
数据加载
df对象[['列名1', '列名2', '列名3'...]] 按列加载数据
df对象.loc[[行索引],[列名]] 按行加载数据
df对象.loc[:,[列名]] 获取所有行的某些列
df对象.