目录
一、简介
1、概念
Pandas(Python Data Analysis Library)是一个基于 NumPy 的数据分析工具,专为解决数据分析任务而创建。它汇集了大量库和一些标准的数据模型,可以更高效地操作大型数据集。
2、特点
- 数据结构: Pandas 提供了两种主要的数据结构,即 Series 和 DataFrame,用于处理一维和二维数据。
- 标签化: 数据结构带有标签,可以通过标签进行轴向操作,提高了数据操作的灵活性。
- 数据清洗: 提供了丰富的功能用于处理缺失值、重复项、异常值等,使数据更整洁。
- 数据操作: 支持各种数据操作,包括合并、连接、分组、聚合等,满足多种数据分析需求。
- 时间序列: 强大的时间序列处理功能,方便处理时间相关的数据。
3、引用
pip install pandas
import pandas as pd # 导入 Pandas 库并使用别名 pd
二、数据结构
1、Series
- 基本属性
values:返回底层的 NumPy 数组,包含 Series 中的数据。
index:返回索引对象,提供标签信息,用于标识每个数据点。
dtype:返回数据的数据类型,表示 Series 中存储的元素类型。
shape:返回数据的形状,对于一维数据,返回的是单元素元组。
size:返回数据的元素个数,表示 Series 中包含的数据点的数量。
nbytes:返回数据的字节大小,即存储数据所需的字节数。
ndim:返回数据的维度,对于 Series 来说,始终为1。
name:返回或设置 Series 的名称,可以用于标识 Series 对象的用途或含义。
import pandas as pd # 导入 Pandas 库并使用别名 pd
# 创建一个 Series 对象
s = pd.Series([1, 2, 3, 4, 5], name='my_series')
print(s.values) # [1 2 3 4 5]
print(s.index) # RangeIndex(start=0, stop=5, step=1)
print(s.dtype) # int64
print(s.shape) # (5,)
print(s.size) # 5
print(s.nbytes) # 40
print(s.ndim) # 1
print(s.name) # my_series
- 创建
import pandas as pd # 导入 Pandas 库并使用别名 pd
import numpy as np # 导入 NumPy 库并使用别名 np
# 从列表创建 Series
s1 = pd.Series([1, 2, 3, 4, 5])
print(s1)
# 0 1
# 1 2
# 2 3
# 3 4
# 4 5
# dtype: int64
# 从字典创建 Series
s2 = pd.Series({
'a': 1, 'b': 2, 'c': 3})
print(s2)
# a 1
# b 2
# c 3
# dtype: int64
# 从 Numpy 数组创建 Series
s3 = pd.Series(np.array([1, 2, 3, 4, 5]))
print(s3)
# 0 1
# 1 2
# 2 3
# 3 4
# 4 5
# dtype: int32
# 从字典和标签列表创建 Series
s4 = pd.Series({
'a': 1, 'b': 2, 'c': 3}, index=['a', 'b', 'c'])
print(s4)
# a 1
# b 2
# c 3
# dtype: int64
- 取值
import pandas as pd # 导入 Pandas 库并使用别名 pd
# 创建一个 Series 对象
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])
# 通过索引取值
value = s['b']
print(value) # 2
# 通过切片取值
slice_values = s['a':'c']
print(slice_values)
# a 1
# b 2
# c 3
# dtype: int64
# 取第二行
row_value = s.iloc[1]
print(row_value) # 2
2、DataFrame
- 基本属性
values:返回底层的 NumPy 数组,包含 DataFrame 中的数据。
columns:返回列名,表示 DataFrame 中每列的标签。
index:返回索引对象,提供标签信息,用于标识每行数据。
shape:返回数据的形状,是一个元组,表示DataFrame的行数和列数。
dtypes:返回每列的数据类型,表示 DataFrame 中存储的元素类型。
size:返回数据的元素个数,表示 DataFrame 中包含的数据点的总数量。
import pandas as pd # 导入 Pandas 库并使用别名 pd
# 创建一个 DataFrame 对象
data = {
'name': ['Tom', 'Nick', 'John'], 'Age': [20, 21, 19]}
df = pd.DataFrame(data)
print(df.columns) # Index(['name', 'Age'], dtype='object')
print(df.index) # RangeIndex(start=0, stop=3, step=1)
print(df.values)
# [['Tom' 20]
# ['Nick' 21]
# ['John' 19]]
print(df.shape) # (3, 2)
print(df.dtypes)
# name object
# Age int64
# dtype: object
print(df.size