pd.DataFrame
是 Pandas 库中用于存储和操作结构化数据的核心数据结构。它类似于 Excel 中的表格,由行和列组成,每一列可以包含不同类型的数值。DataFrame 提供了丰富的数据操作功能,包括数据筛选、排序、分组、合并等。
创建 DataFrame
可以使用多种方式创建 DataFrame,以下是一些常见的方法:
1. 从字典创建
import pandas as pd
# 从字典创建 DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
print(df)
输出:
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
2. 从列表创建
import pandas as pd
# 从列表创建 DataFrame
data = [['Alice', 25, 'New York'],
['Bob', 30, 'Los Angeles'],
['Charlie', 35, 'Chicago']]
df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])
print(df)
输出:
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
3. 从 NumPy 数组创建
import pandas as pd
import numpy as np
# 从 NumPy 数组创建 DataFrame
data = np.array([['Alice', 25, 'New York'],
['Bob', 30, 'Los Angeles'],
['Charlie', 35, 'Chicago']])
df = pd.DataFrame(data, columns=['Name', 'Age', 'City'])
print(df)
输出:
Name Age City
0 Alice 25 New York
1 Bob 30 Los Angeles
2 Charlie 35 Chicago
常用操作
1. 查看数据
# 查看前几行数据
print(df.head(2))
# 查看后几行数据
print(df.tail(2))
# 查看数据的统计信息
print(df.describe())
# 查看数据的形状
print(df.shape)
# 查看数据的列名
print(df.columns)
# 查看数据的索引
print(df.index)
2. 数据筛选
# 筛选特定列
print(df['Name'])
# 筛选多列
print(df[['Name', 'Age']])
# 筛选特定行
print(df[df['Age'] > 30])
# 筛选多条件
print(df[(df['Age'] > 25) & (df['City'] == 'Los Angeles')])
3. 数据排序
# 按年龄排序
print(df.sort_values(by='Age'))
# 按城市排序
print(df.sort_values(by='City', ascending=False))
4. 数据分组
# 按城市分组
grouped = df.groupby('City')
print(grouped.mean())
5. 数据合并
# 创建另一个 DataFrame
data2 = {'Name': ['Alice', 'Bob', 'David'],
'Salary': [50000, 60000, 70000]}
df2 = pd.DataFrame(data2)
# 合并两个 DataFrame
merged = pd.merge(df, df2, on='Name')
print(merged)
总结
pd.DataFrame
是 Pandas 库中用于处理结构化数据的核心数据结构,提供了丰富的数据操作功能。通过多种方式可以创建 DataFrame,并且可以进行数据筛选、排序、分组、合并等操作。这些功能使得 DataFrame 成为数据处理和分析的强大工具。