pandas常用操作

pandas是Python中用于数据操作和分析的强大库。以下是一些常用的操作:

1. 读取数据

  • 从CSV文件读取
      python   import pandas as pd   df = pd.read_csv('path/to/file.csv')  
  • 从Excel文件读取
      python   df = pd.read_excel('path/to/file.xlsx', sheet_name='Sheet1')  

2. 数据查看

  • 显示前几行
      python   df.head()  # 默认显示前5行  
  • 显示后几行
      python   df.tail()  
  • 查看数据信息
      python   df.info()  
  • 基本统计信息
      python   df.describe()  

3. 数据选择

  • 选择列
      python   df['column_name']   df.column_name  
  • 选择多列
      python   df[['column1', 'column2']]  
  • 基于条件选择行
      python   df[df['column'] > 0]  
  • 选择行和列
      python   df.loc[row_indexer, column_indexer]  # 标签索引   df.iloc[row_indexer, column_indexer]  # 位置索引  

4. 数据处理

  • 删除列
      python   df.drop('column_name', axis=1, inplace=True)  
  • 删除行
      python   df.drop(0, axis=0, inplace=True)  # 删除第一行  
  • 填补缺失值
      python   df.fillna(value, inplace=True)  
  • 重命名列
      python   df.rename(columns={'old_name': 'new_name'}, inplace=True)  
  • 更改列类型
      python   df['column_name'] = df['column_name'].astype('int')  

5. 数据聚合与分组

  • 分组操作
      python   grouped = df.groupby('column_name')   grouped.mean()  # 按组计算平均值  
  • 应用函数
      python   df['column_name'].apply(lambda x: function(x))  

6. 数据合并

  • 合并数据框
      python   pd.concat([df1, df2])  # 按行合并   pd.merge(df1, df2, on='key_column')  # 按列合并  

7. 数据清洗

  • 处理重复行
      python   df.drop_duplicates(inplace=True)  
  • 处理缺失数据
      python   df.dropna()  # 删除有缺失值的行  

8. 数据保存

  • 保存为CSV文件
      python   df.to_csv('output.csv', index=False)  
  • 保存为Excel文件
      python   df.to_excel('output.xlsx', index=False)  

这些只是pandas库中最常用的一些操作。pandas的功能非常丰富,涵盖了数据处理的方方面面,具体使用时可以参考其官方文档或社区资源来解决更复杂或特定的问题。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值