Pandas读取csv和excel文件的实战操作！

Pandas教程：CSV与Excel数据的高效读取与操作,

原创已于 2024-01-11 15:02:03 修改 · 4.3k 阅读

47 ·

CC 4.0 BY-SA版权

文章标签：

#pandas #excel #Python学习 #Python编程 #Python库

于 2023-12-09 09:46:57 首次发布

前言

文末有电子书、学习视频等资源免费赠送，不要错过哦！

如果遇到难题：

项目源码运行有误
需要帮忙编写代码 or 解决BUG

可以在文章底部联系我，帮忙解决！

pandas介绍

Pandas是一个强大的数据分析工具，它提供了丰富的函数和方法，可以方便地读取、处理和分析各种类型的数据。本文将详细介绍Pandas读取csv和excel数据的操作，并通过案例来演示。

一、Pandas读取数据的方式

Pandas提供了多种读取数据的方式，常用的有以下几种：

读取CSV文件：使用pd.read_csv()函数可以读取CSV文件。CSV文件是以逗号分隔的文本文件，常用于存储表格数据。
读取Excel文件：使用pd.read_excel()函数可以读取Excel文件。Excel文件是Microsoft Office中常用的电子表格文件格式。
读取SQL数据库：使用pd.read_sql()函数可以读取SQL数据库中的数据。需要提供数据库连接信息和SQL查询语句。
读取HTML网页：使用pd.read_html()函数可以读取HTML网页中的表格数据。需要提供网页的URL地址。
读取JSON文件：使用pd.read_json()函数可以读取JSON文件。JSON是一种常用的数据交换格式，常用于存储结构化数据。

下面通过具体的案例来演示这些读取数据的方式。

二、读取CSV文件

Pandas是一个强大的数据分析和处理工具，它提供了丰富的功能和方法来读取和处理各种类型的数据。其中，读取CSV文件是Pandas中最常用的操作之一。在本文中，我们将详细介绍Pandas读取CSV文件的操作，并通过案例来演示。

什么是CSV文件

CSV文件是一种常用的数据存储格式，它以逗号分隔的方式存储表格数据。CSV全称为Comma Separated Values，即逗号分隔值。CSV文件的每一行表示数据表中的一条记录，每一列表示一种属性。CSV文件的内容可以使用文本编辑器打开并查看，也可以使用电子表格软件（如Excel）进行编辑和处理。

为什么使用Pandas读取CSV文件

Pandas提供了读取CSV文件的方法，相比其他方式，使用Pandas读取CSV文件有以下几个优点：

「1. 灵活性：」 Pandas可以读取包含不同数据类型的CSV文件，如整数、浮点数、字符串等。它可以自动推断数据类型，并对数据进行适当的处理。

「2. 高效性：」 Pandas使用C语言编写的底层库来处理数据，因此读取CSV文件的速度非常快。它还提供了各种方法来对数据进行处理和分析，使数据处理更加高效。

「3. 强大的功能：」 Pandas提供了丰富的功能和方法来处理数据，如数据过滤、排序、聚合、合并等。使用Pandas读取CSV文件可以方便地进行数据处理和分析。

Pandas读取CSV文件的方法

Pandas提供了多种方法来读取CSV文件，下面我们将介绍其中的两种常用方法。

「1. 使用pd.read_csv()函数」

pd.read_csv()函数是Pandas中最常用的读取CSV文件的方法。它可以读取本地文件或远程文件，并将数据读取到一个名为DataFrame的对象中。

语法格式如下：

import pandas as pd

df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, dtype=None)

参数说明：

filepath_or_buffer：CSV文件的路径或URL地址。
sep：字段分隔符，默认为逗号。
header：指定哪一行作为列名，默认为第一行。
names：指定列名，如果没有指定，则使用header中的列名。
index_col：指定某一列作为行索引，默认为None。
dtype：指定每一列的数据类型，默认为None，即自动推断。

案例：假设我们有一个名为"students.csv"的CSV文件，包含了学生的姓名、年龄和成绩信息。我们可以使用以下代码来读取该文件：

import pandas as pd

# 读取CSV文件
df = pd.read_csv('students.csv')

# 打印数据
print(df)

运行以上代码，会将CSV文件中的数据读取到一个名为df的DataFrame对象中，并打印出来。

使用pd.read_table()函数

pd.read_table()函数是另一种读取CSV文件的方法，它与pd.read_csv()函数类似，只是默认的字段分隔符为制表符（\t）。

语法格式如下：

import pandas as pd

df = pd.read_table(filepath_or_buffer, sep='\t', header='infer', names=None, index_col=None, dtype=None)

参数说明与pd.read_csv()函数相同。

案例：假设我们有一个名为"students.csv"的CSV文件，包含了学生的姓名、年龄和成绩信息，并且字段之间使用制表符分隔。我们可以使用以下代码来读取该文件：

import pandas as pd

# 读取CSV文件
df = pd.read_table('students.csv')

# 打印数据
print(df)

运行以上代码，会将CSV文件中的数据读取到一个名为df的DataFrame对象中，并打印出来。

读取CSV文件的常用参数

在使用pd.read_csv()函数读取CSV文件时，我们可以根据需要设置一些参数来控制读取过程。下面我们介绍一些常用的参数。

sep参数：指定字段分隔符

sep参数用于指定CSV文件中的字段分隔符，默认为逗号。如果CSV文件中的字段分隔符不是逗号，我们可以通过sep参数来指定。

案例：假设我们有一个名为"students.csv"的CSV文件，其中字段之间使用分号分隔。我们可以使用以下代码来读取该文件：

import pandas as pd

# 读取CSV文件
df = pd.read_csv('students.csv', sep=';')

# 打印数据
print(df)

运行以上代码，会将CSV文件中的数据读取到一个名为df的DataFrame对象中，并打印出来。

header参数：指定列名所在行

header参数用于指定CSV文件中的哪一行作为列名，默认为第一行。如果CSV文件中的列名不在第一行，我们可以通过header参数来指定。

案例：假设我们有一个名为"students.csv"的CSV文件，其中列名在第二行。我们可以使用以下代码来读取该文件：

import pandas as pd

# 读取CSV文件
df = pd.read_csv('students.csv', header=1)

# 打印数据
print(df)

运行以上代码，会将CSV文件中的数据读取到一个名为df的DataFrame对象中，并打印出来。

names参数：指定列名

names参数用于指定列名，如果没有指定，则使用header中的列名。

案例：假设我们有一个名为"students.csv"的CSV文件，其中没有列名。我们可以使用以下代码来读取该文件，并指定列名：

import pandas as pd

# 读取CSV文件
df = pd.read_csv('students.csv', names=['姓名', '年龄', '成绩'])

# 打印数据
print(df)

运行以上代码，会将CSV文件中的数据读取到一个名为df的DataFrame对象中，并打印出来。

index_col参数：指定行索引

index_col参数用于指定某一列作为行索引，默认为None。如果CSV文件中的某一列是唯一的标识符，我们可以通过index_col参数来指定该列作为行索引。

案例：假设我们有一个名为"students.csv"的CSV文件，其中第一列为学生的学号，我们可以使用以下代码来读取该文件，并将学号列作为行索引：

import pandas as pd

# 读取CSV文件
df = pd.read_csv('students.csv', index_col=0)

# 打印数据
print(df)

运行以上代码，会将CSV文件中的数据读取到一个名为df的DataFrame对象中，并打印出来。

三、读取Excel文件

Pandas提供了多种读取Excel数据的方法，包括使用pd.read_excel()函数和pd.ExcelFile()类。下面我们分别介绍这两种方法的使用。

`pd.read_excel()`函数

pd.read_excel()函数是Pandas中用于读取Excel数据的函数，它的基本语法如下：

pd.read_excel(io, sheet_name=0, header=0, names=None, index_col=None, usecols=None)

参数说明：

io：Excel文件的路径或文件对象。
sheet_name：要读取的工作表的名称或索引，默认为0，表示第一个工作表。
header：指定列名所在行，默认为0，表示第一行。
names：指定列名。
index_col：指定行索引。
usecols：指定要读取的列。

案例：假设我们有一个名为"students.xlsx"的Excel文件，其中包含了学生的姓名、年龄和成绩信息。我们可以使用以下代码来读取该文件：

import pandas as pd

# 读取Excel文件
df = pd.read_excel('students.xlsx')

# 打印数据
print(df)

运行以上代码，会将Excel文件中的数据读取到一个名为df的DataFrame对象中，并打印出来。

`pd.ExcelFile()`类

pd.ExcelFile()类是Pandas中用于读取Excel数据的类，它的基本语法如下：

pd.ExcelFile(io)

参数说明：

io：Excel文件的路径或文件对象。

案例：假设我们有一个名为"students.xlsx"的Excel文件，其中包含了学生的姓名、年龄和成绩信息。我们可以使用以下代码来读取该文件：

import pandas as pd

# 创建ExcelFile对象
xls = pd.ExcelFile('students.xlsx')

# 读取工作表
df = xls.parse()

# 打印数据
print(df)

运行以上代码，会将Excel文件中的数据读取到一个名为df的DataFrame对象中，并打印出来。

读取Excel文件的常用参数

在使用pd.read_excel()函数或pd.ExcelFile()类读取Excel文件时，我们可以根据需要设置一些参数来控制读取过程。下面我们介绍一些常用的参数。

sheet_name参数：指定工作表名称或索引

sheet_name参数用于指定要读取的工作表的名称或索引，默认为0，表示第一个工作表。如果Excel文件中有多个工作表，我们可以通过sheet_name参数来指定要读取的工作表。

「案例：」 假设我们有一个名为"students.xlsx"的Excel文件，其中包含了两个工作表，分别为"Sheet1"和"Sheet2"。我们可以使用以下代码来读取"Sheet2"工作表的数据：

import pandas as pd

# 读取Excel文件
df = pd.read_excel('students.xlsx', sheet_name='Sheet2')

# 打印数据
print(df)

运行以上代码，会将"Sheet2"工作表中的数据读取到一个名为df的DataFrame对象中，并打印出来。

header参数：指定列名所在行

header参数用于指定Excel文件中的哪一行作为列名，默认为0，表示第一行。如果Excel文件中的列名不在第一行，我们可以通过header参数来指定。

案例：假设我们有一个名为"students.xlsx"的Excel文件，其中列名在第二行。我们可以使用以下代码来读取该文件：

import pandas as pd

# 读取Excel文件
df = pd.read_excel('students.xlsx', header=1)

# 打印数据
print(df)

运行以上代码，会将Excel文件中的数据读取到一个名为df的DataFrame对象中，并打印出来。

names参数：指定列名

names参数用于指定列名，如果没有指定，则使用header中的列名。

案例：假设我们有一个名为"students.xlsx"的Excel文件，其中没有列名。我们可以使用以下代码来读取该文件，并指定列名：

import pandas as pd

# 读取Excel文件
df = pd.read_excel('students.xlsx', names=['姓名', '年龄', '成绩'])

# 打印数据
print(df)

运行以上代码，会将Excel文件中的数据读取到一个名为df的DataFrame对象中，并打印出来。

index_col参数：指定行索引

index_col参数用于指定某一列作为行索引，默认为None。如果Excel文件中的某一列是唯一的标识符，我们可以通过index_col参数来指定该列作为行索引。

案例：假设我们有一个名为"students.xlsx"的Excel文件，其中第一列为学生的学号，我们可以使用以下代码来读取该文件，并将学号列作为行索引：

import pandas as pd

# 读取Excel文件
df = pd.read_excel('students.xlsx', index_col=0)

# 打印数据
print(df)

运行以上代码，会将Excel文件中的数据读取到一个名为df的DataFrame对象中，并打印出来。

总结：

本文详细介绍了Pandas读取csv和excel数据的操作，并通过案例来演示。Pandas还提供了多种读取数据的方式，包括读取SQL数据库、HTML网页和JSON文件。通过Pandas读取数据，我们可以方便地获取和处理各种类型的数据，为后续的数据分析和建模工作提供了便利。

感兴趣的小伙伴，赠送全套Python学习资料，包含面试题、简历资料等具体看下方。

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

工具都帮大家整理好了，安装就可直接上手！

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试宝典

在这里插入图片描述

简历模板

若有侵权，请联系删除

Pandas读取csv和excel文件的实战操作！

前言

pandas介绍

一、Pandas读取数据的方式

二、读取CSV文件

什么是CSV文件

为什么使用Pandas读取CSV文件

Pandas读取CSV文件的方法

读取CSV文件的常用参数

三、读取Excel文件

pd.read_excel()函数

pd.ExcelFile()类

读取Excel文件的常用参数

简历模板

`pd.read_excel()`函数

`pd.ExcelFile()`类