pandas常用操作

部署运行你感兴趣的模型镜像

pandas是Python中用于数据操作和分析的强大库。以下是一些常用的操作:

1. 读取数据

  • 从CSV文件读取
      python   import pandas as pd   df = pd.read_csv('path/to/file.csv')  
  • 从Excel文件读取
      python   df = pd.read_excel('path/to/file.xlsx', sheet_name='Sheet1')  

2. 数据查看

  • 显示前几行
      python   df.head()  # 默认显示前5行  
  • 显示后几行
      python   df.tail()  
  • 查看数据信息
      python   df.info()  
  • 基本统计信息
      python   df.describe()  

3. 数据选择

  • 选择列
      python   df['column_name']   df.column_name  
  • 选择多列
      python   df[['column1', 'column2']]  
  • 基于条件选择行
      python   df[df['column'] > 0]  
  • 选择行和列
      python   df.loc[row_indexer, column_indexer]  # 标签索引   df.iloc[row_indexer, column_indexer]  # 位置索引  

4. 数据处理

  • 删除列
      python   df.drop('column_name', axis=1, inplace=True)  
  • 删除行
      python   df.drop(0, axis=0, inplace=True)  # 删除第一行  
  • 填补缺失值
      python   df.fillna(value, inplace=True)  
  • 重命名列
      python   df.rename(columns={'old_name': 'new_name'}, inplace=True)  
  • 更改列类型
      python   df['column_name'] = df['column_name'].astype('int')  

5. 数据聚合与分组

  • 分组操作
      python   grouped = df.groupby('column_name')   grouped.mean()  # 按组计算平均值  
  • 应用函数
      python   df['column_name'].apply(lambda x: function(x))  

6. 数据合并

  • 合并数据框
      python   pd.concat([df1, df2])  # 按行合并   pd.merge(df1, df2, on='key_column')  # 按列合并  

7. 数据清洗

  • 处理重复行
      python   df.drop_duplicates(inplace=True)  
  • 处理缺失数据
      python   df.dropna()  # 删除有缺失值的行  

8. 数据保存

  • 保存为CSV文件
      python   df.to_csv('output.csv', index=False)  
  • 保存为Excel文件
      python   df.to_excel('output.xlsx', index=False)  

这些只是pandas库中最常用的一些操作。pandas的功能非常丰富,涵盖了数据处理的方方面面,具体使用时可以参考其官方文档或社区资源来解决更复杂或特定的问题。

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

### Pandas库的常用版本及其兼容性 Pandas 是一种广泛使用的数据处理工具,其不同版本可能具有不同的特性和兼容性需求。以下是关于 Pandas 常用版本的一些说明: #### 1. 版本概述 目前常用Pandas 版本主要包括 `1.x` 和 `2.x` 系列。这些版本通常与 Python 的高版本保持良好的兼容性,并引入了许多新特性以及性能优化。 - **Pandas 1.x 系列** 这一版本系列自发布以来一直被广泛应用,特别是在数据分析领域。它提供了许多基础功能的支持,例如 DataFrame 操作、时间序列分析等[^1]。 - **Pandas 2.x 系列** 随着技术的发展,Pandas 开发团队推出了新的主要版本——2.x 系列。这一版本不仅修复了一些长期存在的 bug,还增强了对大型数据集的操作能力,并改进了内存管理效率[^4]。 #### 2. 主要版本的功能更新与兼容性 以下是一些重要版本的具体变化及兼容性描述: - **Pandas 1.0.0 及以上** - 正式支持 Parquet 文件格式读写操作,这依赖于外部库如 `pyarrow` 或者 `fastparquet` 来实现高效的数据存储和检索[^2]。 - 新增了更灵活的时间解析选项,允许通过指定 `{column_name: format_string}` 字典来定义特定列的时间格式转换逻辑[^3]。 - **Pandas 1.5.x** - 改进了分组聚合运算的速度表现。 - 对缺失值处理进行了多项增强,使得诸如重采样 (`resample`) 方法更加直观易用。 - **Pandas 2.0.x** - 提升了整体框架的稳定性并减少了资源消耗。 - 更好地适配最新版 NumPy 和其他科学计算生态组件的要求。 #### 3. 安装建议 为了确保最佳体验,在安装 Pandas 库之前应确认所运行环境中的 Python 是否满足最低要求(通常是 Python >= 3.8)。可以通过 pip 工具轻松完成安装或升级过程: ```bash pip install --upgrade pandas ``` 如果需要针对具体项目锁定某个稳定版本,则可以显式指明目标版本号,比如: ```bash pip install pandas==1.5.3 ``` --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值