Pandas 是 Python 中用于数据处理和分析的核心库,提供高效的数据结构和操作工具。
创建 DataFrame
import pandas as pd
data = {'Name': ['Alice', 'Bob'], 'Age': [25, 30]}
df = pd.DataFrame(data)
读取数据文件
df = pd.read_csv('data.csv') # CSV文件
df = pd.read_excel('data.xlsx') # Excel文件
查看数据
df.head() # 查看前5行
df.info() # 数据结构信息
df.describe() # 统计摘要
数据清洗与处理
处理缺失值
df.dropna() # 删除缺失值
df.fillna(0) # 填充缺失值
数据筛选
df[df['Age'] > 25] # 条件筛选
df.query('Age > 25') # 查询语法
数据排序
df.sort_values('Age', ascending=False) # 按列降序
数据分组与聚合
分组操作
df.groupby('Name').mean() # 按列分组计算均值
聚合函数
df.agg({'Age': ['mean', 'max']}) # 多列不同聚合
数据可视化
基本绘图
df['Age'].plot.hist() # 直方图
df.plot.scatter(x='Age', y='Salary') # 散点图
高级功能
时间序列处理
df['Date'] = pd.to_datetime(df['Date']) # 转换时间格式
df.set_index('Date', inplace=True) # 设为索引
合并数据
pd.concat([df1, df2]) # 纵向合并
pd.merge(df1, df2, on='key') # 横向合并
性能优化
使用高效数据类型
df['Age'] = df['Age'].astype('int32') # 减小内存占用
向量化操作
df['Age'] += 1 # 避免循环
2869

被折叠的 条评论
为什么被折叠?



