第一篇：Pandas入门指南：掌握Python数据处理利器

最新推荐文章于 2025-12-08 08:30:00 发布

原创最新推荐文章于 2025-12-08 08:30:00 发布 · 906 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #python #开发语言

该文章是Pandas数据分析系列的开篇，介绍了Pandas在Python中的重要性，用于数据处理和分析。通过实例展示了如何使用Pandas读取和合并Excel及CSV数据，以及预览、过滤、排序数据和处理缺失值。适合初学者和有一定经验的数据分析者学习。

在这里插入图片描述

作者: 西魏陶渊明
博客: https://blog.springlearn.cn/

天下代码一大抄, 抄来抄去有提高, 看你会抄不会抄！

欢迎来到我们的全新系列文章——Pandas数据分析系列！在这个系列中，我们将带您深入了解Pandas这个强大的Python库，探索其在数据分析领域的广泛应用和令人惊叹的功能。

无论您是一名初学者还是已经有一定数据分析经验的专业人士，本系列都将为您提供宝贵的知识和技巧。我们将逐步引导您了解Pandas的核心概念、基本操作和高级功能，帮助您快速掌握处理、清洗和分析大规模数据集的能力。

本系列文章还是引用之前的理念，阅读文章，你不需要记，只要知道这一篇在讲什么即可，收藏起来，用的时候过来抄代码。

系列文章:

第一篇：Pandas入门指南：掌握Python数据处理利器【当前篇】

第二篇：数据探索与清洗：使用Pandas轻松预处理数据

第三篇：深入了解Pandas数据结构：Series与DataFrame

第四篇：数据选择与过滤：Pandas中的强大索引技巧

第五篇：数据操作与转换：学会利用Pandas处理复杂任务

文章目录

一、本章重点

基础知识
- Pandas是什么
- 学会Pandas能做什么事情
- 哪些人适合学习Pandas
Pandas中数据结构
- Series 结构
- DataFrame 结构
入门操作之数据读取
- 读取Excel数据
- 读取CSV数据
- 预览数据
- 数据过滤
- 数据排序
- 缺失值处理

二、基础知识

2.1 Pandas是什么

在这里插入图片描述

Pandas 是 Python 中一只非常可爱的黑白熊猫，不，等等，抱歉，我搞错了！实际上，Pandas是一种用于数据处理和分析的强大Python库，而不是一个毛茸茸的动物。

想象一下，你面对着一大堆杂乱无章的数据，就像你家里那堆堆乱七八糟的袜子一样。你不知道从哪里开始整理，但又迫切需要找到其中的宝藏。这时候，Pandas就是你的超级整理大师！

Pandas像是一只巧妙而灵活的熊猫，它能够迅速抓取、转换和整理你的数据，让它们变得井井有条，就像是袜子被整齐地折叠放入抽屉一样。不仅如此，它还能帮助你轻松地过滤、排序和聚合数据。

Pandas会用简单直观的语法和操作让你愉快地与数据互动，就像是在跟一只可爱的小熊猫玩耍一样。当你与Pandas结伴而行时，你将发现数据处理和分析变得轻松有趣。

所以一句话: Pandas是Python领域中一个非常重要的数据处理的库。

在这里插入图片描述

2.2 学会Pandas能做什么事情

当然是处理数据了，这么说可能还是不直观。来吧下面举一个例子。
我有两个表格。

A表格

姓名	名称
孙悟空	齐天大圣
猪八戒	天蓬元帅
沙悟净	沙和尚
唐僧	唐三藏

B表格

姓名	职称
孙悟空	大师兄
猪八戒	通臂猪八戒
沙悟净	三师弟
唐僧	师傅

下面使用Pandas对数据继续关联。

import pandas as pd

# A表格数据
a_data = {
    '姓名': ['孙悟空', '猪八戒', '沙悟净', '唐僧'],
    '名称': ['齐天大圣', '天蓬元帅', '沙和尚', '唐三藏']
}

# B表格数据
b_data = {
    '姓名': ['孙悟空', '猪八戒', '沙悟净', '唐僧'],
    '职称': ['大师兄', '二师兄', '三师弟', '师傅']
}

# 生成A表格的DataFrame
df_a = pd.DataFrame(a_data)

# 生成B表格的DataFrame
df_b = pd.DataFrame(b_data)

# 打印输出A表格的DataFrame
print("A表格的DataFrame:")
print(df_a)

# 打印输出B表格的DataFrame
print("\nB表格的DataFrame:")
print(df_b)


# 将A表格和B表格按照姓名进行合并
df_c = pd.merge(df_a, df_b, on='姓名')

# 打印输出C表格的DataFrame
print("C表格的DataFrame:")
print(df_c)

# C表格的DataFrame:
#     姓名    名称   职称
# 0  孙悟空  齐天大圣  大师兄
# 1  猪八戒  天蓬元帅  二师兄
# 2  沙悟净   沙和尚  三师弟
# 3   唐僧   唐三藏   师傅

这里我们只用了2个方法。

pd.DataFrame(b_data) 生成数据
pd.merge(df_a, df_b, on=‘姓名’) 合并数据

这是小试牛刀，他能做的远远超过于此。数据的聚合，平均值等等操作都在后面呢。

2.3 那些人适合学习Pandas

如果你的身份是大学生，闲暇时间可以学习一下，不用太精通，只要知道就行，就好比看这篇文章，你不用记住这么多的代码，只要在哪里，知道怎么用即可!
业务分析师, 业务数据会汇总成各种Excel表格, 最终你需要对其进行分析,当然Excel也可以完成这项工作，但是如果你用Pandas你会发现事半功倍。一次编程, 反复使用,非常Nice。
数据科学家，那就不用看了，数据科学家不需要看文章学习。无师自通。

总结: 经常需要进行数据分析，或者是操作Excel工作的人群，建议学习。

三、Pandas中数据类型

对于有编程经验的人看这里:

Series 就是一个列表，就是一个数组，他是一个一维度的数据类型。
DataFrame 就是一个Map,字典,他是一个多维的数据类型。

对于有视频处理经验的人看这里:

Series 就像一个图片，是静态的，只能反映当前的图像
DataFrame 就像一个视频，有时间轴，能反应每一秒的图像

对于没有任何经验的看这里:

假设你是一个冰淇淋店的老板，你想要记录每天的销售数据。Series和DataFrame就像是你的销售记录本。

Series可以看作是一天中某个具体时刻的销售数据。比如，你可以创建一个"下午2点"的Series，其中包含不同口味冰淇淋的销售数量。这就像是你在销售记录本上记录了某个具体时刻的销售情况。

        香草    巧克力    草莓
下午2点    7       6       3

DataFrame则是一整天的销售记录。它是一个包含多个Series的表格，每个Series代表一种销售数据。比如，你可以创建一个销售记录的DataFrame，其中每一列代表一种口味的冰淇淋，而每一行代表不同的时间点。

        香草    巧克力    草莓
上午10点   5       3       2
下午2点    7       6       3
晚上8点    3       2       1

3.1 Series 类型

# 接下来，我们可以使用pd.Series()函数创建一个Series，
# 并传入一个包含数据的列表作为参数。为了模拟数据，我们可以使用随机生成的气温数值：
temperature_data = [25.3, 27.8, 23.5, 26.1, 24.9]

# ，我们可以使用pd.Series()来创建Series，并将其赋值给一个变量，例如temperature_series。同时，我们可以使用name参数为Series指定一个名称，比如"Temperature"：
temperature_series = pd.Series(temperature_data, name='Temperature')

# 0    25.3
# 1    27.8
# 2    23.5
# 3    26.1
# 4    24.9
# Name: Temperature, dtype: float64
print(temperature_series)

3.2 DataFrame 类型

import pandas as pd

# A表格数据
a_data = {
    '姓名': ['孙悟空', '猪八戒', '沙悟净', '唐僧'],
    '名称': ['齐天大圣', '天蓬元帅', '沙和尚', '唐三藏']
}
# 生成A表格的DataFrame
df_a = pd.DataFrame(a_data)

# 打印输出A表格的DataFrame
print("A表格的DataFrame:")
print(df_a)

# A表格的DataFrame:
#     姓名    名称
# 0  孙悟空  齐天大圣
# 1  猪八戒  天蓬元帅
# 2  沙悟净   沙和尚
# 3   唐僧   唐三藏

四、入门操作之数据读取

4.1 Excel文件读取

前面学习了DataFrame类型, Excel就是一个这样的类型。看下面的文件。

在这里插入图片描述
我这里有一个表格，是从第二行开始，然后从B列到C列。下面我们怎么读取这个表格，然后生成一个
DataFrame对象呢。


excel = pd.read_excel('./a.xlsx', skiprows=1, usecols=['姓名','名称'], sheet_name='Sheet1')

#     姓名    名称
# 0  孙悟空  齐天大圣
# 1  猪八戒  天蓬元帅
# 2  沙悟净   沙和尚
# 3   唐僧   唐三藏
print(excel)

4.2 CSV文件读取

CSV更是处理简单，首先我们先将刚才的excel转换成csv文件。

在这里插入图片描述

def excel_to_csv(excel_file, csv_file, sheet='Sheet1', excludeColums=[]):
    # 读取Excel文件
    df = pd.read_excel(excel_file, skiprows=1, usecols=['姓名', '名称'], sheet_name=sheet)
    if excludeColums:
        df = df.drop(excludeColums, axis=1)
    # 将数据保存为UTF-8编码的CSV文件
    df.to_csv(csv_file, encoding='utf-8', index=False)
    print(f"转换完成，已将Excel文件 '{excel_file}' 转换为CSV文件 '{csv_file}'")
    
excel_to_csv('./a.xlsx', './a.csv')

# 因为我们生成的csv文件,第一行就是,所以就不用跳过。也不用指定列。
csv = pd.read_csv('./a.csv')

#     姓名    名称
# 0  孙悟空  齐天大圣
# 1  猪八戒  天蓬元帅
# 2  沙悟净   沙和尚
# 3   唐僧   唐三藏
print(csv)

4.3 预览数据

有后端服务开发经验的同学会很容易上手,两个熟悉的命令，映入眼帘。

head
tail

可以指定要查看的数量,如果不指定默认看头5行,或者尾5行。

import pandas as pd

# A表格数据
a_data = {
    '姓名': ['孙悟空', '猪八戒', '沙悟净', '唐僧'],
    '名称': ['齐天大圣', '天蓬元帅', '沙和尚', '唐三藏']
}

# 生成A表格的DataFrame
df_a = pd.DataFrame(a_data)
#
#     姓名    名称
# 0  孙悟空  齐天大圣
print(df_a.head(1))

#    姓名   名称
# 3  唐僧  唐三藏
print(df_a.tail(1))

4.4 数据过滤

我们给唐僧师徒增加上年龄属性,然后获取年龄小于100岁的人。

import pandas as pd

# A表格数据
a_data = {
    '姓名': ['孙悟空', '猪八戒', '沙悟净', '唐僧'],
    '名称': ['齐天大圣', '天蓬元帅', '沙和尚', '唐三藏'],
    '年龄': [1500, 2000, 2000, 40]
}


# 生成A表格的DataFrame
df_a = pd.DataFrame(a_data)

# 获取年龄小于100岁的人
print(df_a[df_a['年龄'] < 100])

#    姓名   名称  年龄
# 3  唐僧  唐三藏  40

4.5 数据排序

我们按照年龄从小到大排序,这简直太简单了吧。

import pandas as pd

# A表格数据
a_data = {
    '姓名': ['孙悟空', '猪八戒', '沙悟净', '唐僧'],
    '名称': ['齐天大圣', '天蓬元帅', '沙和尚', '唐三藏'],
    '年龄': [1500, 2000, 2000, 40]
}

# 生成A表格的DataFrame
df_a = pd.DataFrame(a_data)

#     姓名    名称    年龄
# 3   唐僧   唐三藏    40
# 0  孙悟空  齐天大圣  1500
# 1  猪八戒  天蓬元帅  2000
# 2  沙悟净   沙和尚  2000
print(df_a.sort_values(by='年龄'))

4.6 缺失值处理

如下我们将沙僧的年龄从2000改成NaN就是缺失值。
然后再生成DataFrame时候,指定如果缺失就填充-1


import pandas as pd
import numpy as np

# A表格数据
a_data = {
    '姓名': ['孙悟空', '猪八戒', '沙悟净', '唐僧'],
    '名称': ['齐天大圣', '天蓬元帅', '沙和尚', '唐三藏'],
    '年龄': [1500, 2000, np.NAN, 40]
}

df_a = pd.DataFrame(a_data).fillna(-1)

#     姓名    名称      年龄
# 2  沙悟净   沙和尚    -1.0
# 3   唐僧   唐三藏    40.0
# 0  孙悟空  齐天大圣  1500.0
# 1  猪八戒  天蓬元帅  2000.0
print(df_a.sort_values(by='年龄'))