Pandas
[Pandas官方文档](DataFrame — pandas 2.2.2 documentation (pydata.org))
数据结构 Series
- series 是pandas中的一维数据,类似表格中的一列
pandas.Series(data=None, index=None, dtype=None, name=None, copy=False, fastpath=False)
- data 存放的数据 可以是列表 数组 字典
- index 索引 默认为从0开始的整数
- detype 数据类型 可以是Numpy的数据类型
- name series的名称
# 使用列表创建 Series
s = pd.Series([1, 2, 3, 4])
print(s)
# 使用 NumPy 数组创建 Series
s = pd.Series(np.array([1, 2, 3, 4]))
print(s)
# 使用字典创建 Series
s = pd.Series({
'a': 1, 'b': 2, 'c': 3, 'd': 4})
print(s) # 字典的键作为series的index索引
# 获取索引
index = s.index
print(index)
# 获取值数组
values = s.values
print(values)
# 获取描述统计信息
stats = s.describe()
print(stats)
'''
0 1
1 2
2 3
3 4
dtype: int64
0 1
1 2
2 3
3 4
dtype: int32
a 1
b 2
c 3
d 4
dtype: int64
Index(['a', 'b', 'c', 'd'], dtype='object')
[1 2 3 4]
count 4.000000
mean 2.500000
std 1.290994
min 1.000000
25% 1.750000
50% 2.500000
75% 3.250000
max 4.000000
dtype: float64
'''
# 获取最大值和最小值的索引
max_index = s.idxmax()
min_index = s.idxmin()
# 其他属性和方法
# print(s.dtype) # 数据类型
# print(s.shape) # 形状
# print(s.size) # 元素个数
# print(s.head()) # 前几个元素,默认是前 5 个
# print(s.tail()) # 后几个元素,默认是后 5 个
# print(s.sum()) # 求和
# print(s.mean()) # 平均值
# print(s.std()) # 标准差
# print(s.min()) # 最小值
# print(s.max()) # 最大值
数据结构 DataFrame
DataFrame是Pandas中的数据结构 用于标识二维表格的数据
存放了多个Series对象,共用相同的索引
DataFrame 的列索引对应了Series对象
pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)
- data 存放的数据 可以是字典 二维数组 series 等
- index 行索引
- columns 列索引
- dtype 指定DataFrame 的数据类型
# 列表创建
li = [