Pandas读取xlsx数据（超详细）

原创已于 2023-09-10 23:07:53 修改 · 2.3w 阅读

319 ·

CC 4.0 BY-SA版权

文章标签：

#pandas

于 2023-09-07 22:37:15 首次发布

本文介绍了如何使用Python的Pandas库导入Excel文件，包括安装Pandas、读取数据、查看数据、提取变量等步骤，并展示了数据预处理的基础操作。

该文章已生成可运行项目，

导入和处理数据是数据分析的重要一环。Pandas是一个强大且流行的Python库，用于数据处理和分析。在本篇博客中，我们将介绍如何使用Pandas库导入Excel表格，以及一些常用并且实用的操作技巧。

一：安装Pandas库

首先，确保你已经安装了Pandas库。如果没有安装，可以使用以下命令来安装：

pip install pandas

二：导入所需库和文件

我们导入pandas一般给它起个别名：pd

import pandas as pd

三：读取Excel表格数据

假设我们有一个名为"鸢尾花训练数据.xlsx"（提取码：6666）的Excel表格，其中包含我们要导入的数据。使用Pandas的read_excel()函数读取Excel文件并将数据用data接收。注意：numpy是以数组形式来读取数据，而pandas是以表格的形式来读取数据。

下面是一个示例代码：

data = pd.read_excel('鸢尾花训练数据.xlsx')

四：查看数据

数据接收了，我们现在想查看数据就可以使用Pandas的一些基本函数和属性，可以有效地查看数据。下面是一些常用的函数和属性：

head()：查看前几行数据，默认为前5行。
tail()：查看后几行数据，默认为后5行。
shape：获取数据的维度，即行数和列数。
info()：显示数据的基本信息，如列名、数据类型、非空值数量等。

这是一个完整的excel表格:

print(data.head())    #查看前几行数据，默认为前5行。

print(data.tail())   #查看后几行数据，默认为后5行。

print(data.info())    #显示数据的基本信息，如列名、数据类型、非空值数量等。

五：提取数据

进行数据处理时注意数据重排；训练模型时变量要与标签分离。data是一个DataFrame对象，我们希望选择其中几列作为变量x和y。通过使用[['column_name']]语法，我们将列名放在两层方括号中，如[['萼片长(cm)', '萼片宽(cm)', '花瓣长(cm)', '花瓣宽(cm)']]和[['类型_num']]。这会将这些列作为DataFrame对象返回给变量x和y，以便后续的数据处理和分析。

import pandas as pd
data=pd.read_excel("鸢尾花训练数据.xlsx")

x = data[['萼片长(cm)', '萼片宽(cm)', '花瓣长(cm)', '花瓣宽(cm)']]
y = data[['类型_num']]
print(x)
print(y)

本文章已经生成可运行项目