第38课 Pandas 数据处理与分析实战宝典（python）

结伴同行～

于 2025-01-07 02:46:16 发布

阅读量421

点赞数 8

分类专栏：「Python」入门到精通【50课】文章标签： pandas python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_45326892/article/details/144976051

版权

Pandas 数据处理与分析精粹

基础知识

安装

pip install pandas

导入

import pandas as pd

创建数据结构

Series：一维数组，带索引.
```
s = pd.Series([1, 3, 5, np.nan, 6, 8])
```

DataFrame：二维表格型数据结构，带行索引和列索引.

df = pd.DataFrame({
     
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

常用函数

读取数据：pd.read_csv('file.csv')，pd.read_excel('file.xlsx')，pd.read_sql_query('query', connection)
查看数据：df.head()，df.tail()，df.info()，df.describe()
索引和切片：
- 按标签索引：df.loc[0, 'A']，df.loc[[0, 1], ['A', 'B']]
- 按位置索引：df.iloc[0, 0]，df.iloc[[0, 1], [0, 1]]
数据清洗：
- 缺失值处理：df.dropna()，df.fillna(value=0)
- 重复值处理：df.drop_duplicates()
- 数据类型转换：df['A'] = df['A'].astype('float')
数据排序：df.sort_values(by='A')，df.sort_index()
数据合并：
- 水平合并：pd.concat([df1, df2], axis=1)
- 垂直合并：pd.concat([df1, df2], axis=0)
- 合并表格：pd.merge(df1, df2, on='key')

高级应用

数据分组与聚合

分组：grouped = df.groupby('A')
聚合：grouped.sum()，grouped.mean()，grouped.agg(['sum', 'mean'])

数据透视表

创建透视表：pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

时间序列分析

日期范围：pd.date_range('20230101', periods=6)
时间戳：pd.Timestamp('20230101')
时间偏移：pd.Timedelta(days=3)
时间数据转换：pd.to_datetime('20230101')

高级索引

布尔索引：df[df['A'] > 2]
层级索引：
- 创建：df = pd.DataFrame(np.random.randn(4, 2), index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]], columns=['A', 'B'])
- 索引：df.loc['a']，df.xs('b', level=0)

数据可视化

基本图表：df.plot(kind='line')，df.plot(kind='bar')，df.plot(kind='hist')
复杂图表：df.plot(kind='scatter', x='A', y='B')，df.plot(kind='box')

案例

案例 1：数据清洗 - 处理缺失值

# 读取数据
df = pd.read_csv('data.csv')

# 查看缺失值情况
print(df.isnull().sum

最低0.47元/天解锁文章

结伴同行～

博客等级

码龄6年

86
原创

982
点赞

985
收藏

552
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: 第37课 python中，NumPy 应用实战指南

下一篇：: 第39课 Matplotlib 基础知识与实战案例精讲（python）

最新评论

对`loguru`进行二次封装，项目中使用更方便
北风之神c: 总结的很全面的日志使用，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
python日志处理，logging和longuru的对比
北风之神c: 总结的很全面的日志使用，写得赞，博主用心了。此国产日志 https://nb-log-doc.readthedocs.io/zh-cn/latest/articles/c1.html 使用原生 loggng封装，兼容性和替换性100%,只需要一行代码大幅简化logging的使用。 1、日志能根据级别能够自动变彩色。 2、print自动变彩色。 3、日志和print在pycahrm控制台的输出都自动可以点击跳转到文件和行号。 4、多进程日志切割安全，文件日志写入性能高。 5、入参简单，能一键自动记录到多种地方。 6、 nb_log 兼容包含loguru色彩模式,loguru只是nb_log的子集之一. 相比 loguru 有10胜。 pip install nb_log 。
远程连接Ubuntu上的MySQL数据库
伏特加982: 我爱你
Ubuntu系统搭建Vue环境
梁栋沉: 不太好

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

结伴同行～ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。