Pandas 是一个强大的 Python 数据分析库,广泛用于数据清洗、处理和分析。它提供了大量易于使用的数据结构以及数据分析工具,特别适用于处理表格数据。下面将详细介绍 Pandas 的主要特性及其使用方法。
这里插播一条粉丝福利,如果你正在学习Python或者有计划学习Python,想要突破自我,对未来十分迷茫的,可以点击这里获取最新的Python学习资料和学习路线规划(免费分享,记得关注)
1. 安装 Pandas
要开始使用 Pandas,首先需要安装它。可以通过 pip 来安装:
pip install pandas
2. 基本概念
-
Series:一维数组,可以存储任何类型的数据(整数、字符串、浮点数等)。每个元素都有一个标签。
-
DataFrame:二维表格型数据结构,有行和列。类似于 Excel 表或 SQL 表。
-
Index:用来标记 DataFrame 或 Series 中的轴(行/列)。
3. 创建对象
创建 Series
import pandas as pd
# 使用列表创建 Series
s = pd.Series([1, 3, 5, np.nan, 6, 8])
print(s)
创建 DataFrame
# 使用字典创建 DataFrame
data = {'Name': ['Tom', 'Nick', 'John', 'Mike'],
'Age': [20, 21, 19, 18]}
df = pd.DataFrame(data)
print(df)
4. 查看数据
-
head()
显示前 n 行,默认为 5 行。 -
tail()
显示最后 n 行,默认为 5 行。 -
describe()
提供数值列的基本统计信息。 -
info()
显示关于 DataFrame 的简要信息。
5. 选择数据
-
通过列名访问:
df['column_name']
-
通过位置索引访问:
df.iloc[rows, columns]
-
通过条件筛选:
df[df['column'] > value]
6. 数据清理
-
处理缺失值:
-
dropna()
删除包含空值的行或列。 -
fillna()
用指定值填充空值。
-
-
删除重复项:
drop_duplicates()
-
替换值:
replace(to_replace=value, value=new_value)
7. 数据转换
-
应用函数:
apply(func)
对 DataFrame 的每个元素执行函数 func。 -
添加新列:直接赋值即可。
-
删除列:
del df['column_name']
或者df.drop('column_name', axis=1)
8. 分组与聚合
-
groupby()
按某列或多列分组。 -
agg()
对分组后的数据进行聚合操作如求和、平均等。
9. 合并数据集
-
concat()
沿着一个轴连接多个 DataFrame。 -
merge()
类似于 SQL 中的 JOIN 操作。
10. 导入导出数据
-
从 CSV 文件读取数据:
pd.read_csv('filename.csv')
-
将 DataFrame 写入 CSV 文件:
df.to_csv('output.csv')
Pandas 是一个非常全面且高效的库,适合处理各种规模的数据集。掌握其基本功能对于进行数据分析非常重要。随着经验的增长,你还可以探索更多高级功能和技术来提高你的数据处理能力。
最后,我精心筹备了一份全面的Python学习大礼包,完全免费分享给每一位渴望成长、希望突破自我现状却略感迷茫的朋友。无论您是编程新手还是希望深化技能的开发者,都欢迎加入我们的学习之旅,共同交流进步!
🌟 学习大礼包包含内容:
Python全领域学习路线图:一目了然,指引您从基础到进阶,再到专业领域的每一步学习路径,明确各方向的核心知识点。
超百节Python精品视频课程:涵盖Python编程的必备基础知识、高效爬虫技术、以及深入的数据分析技能,让您技能全面升级。
实战案例集锦:精选超过100个实战项目案例,从理论到实践,让您在解决实际问题的过程中,深化理解,提升编程能力。
华为独家Python漫画教程:创新学习方式,以轻松幽默的漫画形式,让您随时随地,利用碎片时间也能高效学习Python。
互联网企业Python面试真题集:精选历年知名互联网企业面试真题,助您提前备战,面试准备更充分,职场晋升更顺利。
👉 立即领取方式:只需【点击这里】,即刻解锁您的Python学习新篇章!让我们携手并进,在编程的海洋里探索无限可能