Pandas 基础操作

Pandas 是 Python 中用于数据处理和分析的核心库,提供高效的数据结构和操作工具。

创建 DataFrame

import pandas as pd
data = {'Name': ['Alice', 'Bob'], 'Age': [25, 30]}
df = pd.DataFrame(data)

读取数据文件

df = pd.read_csv('data.csv')  # CSV文件
df = pd.read_excel('data.xlsx')  # Excel文件

查看数据

df.head()  # 查看前5行
df.info()  # 数据结构信息
df.describe()  # 统计摘要

数据清洗与处理

处理缺失值

df.dropna()  # 删除缺失值
df.fillna(0)  # 填充缺失值

数据筛选

df[df['Age'] > 25]  # 条件筛选
df.query('Age > 25')  # 查询语法

数据排序

df.sort_values('Age', ascending=False)  # 按列降序

数据分组与聚合

分组操作

df.groupby('Name').mean()  # 按列分组计算均值

聚合函数

df.agg({'Age': ['mean', 'max']})  # 多列不同聚合

数据可视化

基本绘图

df['Age'].plot.hist()  # 直方图
df.plot.scatter(x='Age', y='Salary')  # 散点图

高级功能

时间序列处理

df['Date'] = pd.to_datetime(df['Date'])  # 转换时间格式
df.set_index('Date', inplace=True)  # 设为索引

合并数据

pd.concat([df1, df2])  # 纵向合并
pd.merge(df1, df2, on='key')  # 横向合并

性能优化

使用高效数据类型

df['Age'] = df['Age'].astype('int32')  # 减小内存占用

向量化操作

df['Age'] += 1  # 避免循环

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值