📊 Pandas 数据分析全攻略!
📌 你是否遇到这些问题?
✅ 如何高效处理 Excel、CSV 数据?
✅ 如何快速筛选、清洗、分析数据?
✅ 如何用 Python 进行数据统计?
如果你想用 Python 进行数据分析,Pandas 绝对是首选! 今天,我们来详细讲解 Pandas 的核心功能,助你成为数据分析高手!🚀
1️⃣ 什么是 Pandas?
🔹 Pandas 是 Python 最强大的数据分析库,专门用于处理结构化数据(如 Excel、CSV、数据库等)。
🔹 核心数据结构:
✅ Series
(一维数据,如列表)
✅ DataFrame
(二维数据表,如 Excel)
📌 安装 Pandas(如果你还没安装):
pip install pandas
📌 导入 Pandas:
import pandas as pd
2️⃣ Series:一维数据结构
Series
可以看作带索引的列表,适用于存储一列数据。
📌 创建 Series
:
import pandas as pd
data = pd.Series([10, 20, 30, 40])
print(data)
🔹 输出:
0 10
1 20
2 30
3 40
dtype: int64
✅ 自动生成索引(0,1,2,3),可以像列表一样访问数据!
📌 自定义索引:
data = pd.Series([10, 20, 30, 40], index=["A", "B", "C", "D"])
print(data["B"]) # 访问索引为 'B' 的值
🔹 输出:
20
✅ Series 适用于存储单列数据,如时间序列、股票价格等!
3️⃣ DataFrame:二维数据结构(核心)
DataFrame
是 Pandas 最核心的数据结构,类似于 Excel 表格,可存储多列数据。
📌 创建 DataFrame
:
data = {
"姓名": ["Alice", "Bob", "Charlie"],
"年龄": [25, 30, 35],
"城市": ["北京", "上海", "广州"]
}
df = pd.DataFrame(data)
print(df)
🔹 输出:
姓名 年龄 城市
0 Alice 25 北京
1 Bob 30 上海
2 Charlie 35 广州
✅ 适用于处理 Excel、CSV、数据库中的数据!
4️⃣ 读取 & 保存数据
Pandas 可直接读取/保存 Excel、CSV、JSON 等格式的数据!
📌 读取 CSV 文件:
df = pd.read_csv("data.csv")
print(df.head()) # 查看前 5 行数据
📌 保存为 Excel 文件:
df.to_excel("output.xlsx", index=False)
✅ 数据存取非常方便!
5️⃣ 数据筛选 & 处理
📌 访问某列数据
print(df["姓名"]) # 访问 "姓名" 列
📌 筛选数据(条件筛选)
df_filtered = df[df["年龄"] > 25] # 筛选年龄大于 25 的人
print(df_filtered)
📌 排序数据
df_sorted = df.sort_values(by="年龄", ascending=False) # 按年龄降序排列
print(df_sorted)
📌 缺失值处理
df.dropna() # 删除缺失值
df.fillna("未知") # 填充缺失值
✅ Pandas 提供强大的数据处理能力,让数据分析更高效!
6️⃣ 数据统计 & 分析
📌 计算基本统计信息
print(df.describe()) # 统计平均值、标准差、最小值、最大值等
📌 分组统计
df.groupby("城市")["年龄"].mean() # 按城市分组,计算平均年龄
📌 数据透视表
df.pivot_table(index="城市", values="年龄", aggfunc="mean") # 计算各城市的平均年龄
✅ 轻松完成数据统计与分析!