如何用Python读取Excel中的一列数据

原创于 2025-04-22 13:24:27 发布 · 1.3k 阅读

CC 4.0 BY-SA版权

文章标签：

该文章已生成可运行项目，

在数据分析和处理领域，我们经常需要从Excel文件中提取特定的数据。想象一下，你有一个庞大的Excel表格，里面有成千上万行的数据，而你只关心其中某一列的内容。手动复制粘贴显然不是最佳选择，那么如何高效地使用Python来读取Excel中的这一列数据呢？今天，我们就来探讨这个问题。

为什么选择Python？

Python以其简洁易读的语法和强大的库支持成为处理Excel文件的理想工具。特别是对于那些从事数据分析的人来说，Python提供了多种方法来快速、准确地读取Excel文件。无论是简单的数据提取，还是复杂的多表关联操作，Python都能轻松应对。接下来，我们将介绍几种常见的读取Excel一列数据的方法，并通过实际案例进行演示。

使用`pandas`库

pandas是Python中最受欢迎的数据分析库之一，它能够高效地处理结构化数据。要使用pandas读取Excel文件，首先需要安装pandas和openpyxl（用于读取Excel文件）：

pip install pandas openpyxl

代码示例

假设我们有一个名为data.xlsx的Excel文件，其中包含两列数据：ID和Name。我们想要读取Name这一列的数据。

import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx')

# 提取指定列
names = df['Name'].tolist()

print(names)

这段代码非常简单明了。pd.read_excel()函数可以读取整个Excel文件，并将其转换为一个DataFrame对象。然后，通过索引操作df['Name']，我们可以轻松获取所需的列，并将其转换为列表形式输出。pandas的优势在于它可以处理各种格式的Excel文件，并且提供了丰富的数据清洗和预处理功能，非常适合处理复杂的数据集。

性能优化

当面对大型Excel文件时，性能优化显得尤为重要。pandas允许我们在读取时指定需要加载的列，从而减少内存占用：

df = pd.read_excel('data.xlsx', usecols=['Name'])

这样做的好处是可以显著提高读取速度，特别是在处理GB级别的Excel文件时。此外，pandas还支持分块读取，即每次只读取一部分数据，这对于内存有限的环境非常有用：

chunksize = 1000
chunks = []

for chunk in pd.read_excel('data.xlsx', chunksize=chunksize):
    chunks.append(chunk['Name'])

names = [item for sublist in chunks for item in sublist]

使用`openpyxl`库

除了pandas，openpyxl也是一个非常好用的库，专门用于读写Excel文件。与pandas不同的是，openpyxl更适合处理单个单元格或小范围的数据操作。

pip install openpyxl

代码示例

from openpyxl import load_workbook

# 加载工作簿
wb = load_workbook('data.xlsx')
ws = wb.active

# 遍历指定列
names = []
for row in ws.iter_rows(min_col=2, max_col=2, values_only=True):
    names.append(row[0])

print(names)

这里我们使用了iter_rows()方法来遍历指定的列（第二列）。min_col和max_col参数用于限定读取的列范围，values_only=True则表示只返回单元格的值而不是整个单元格对象。openpyxl的一个优点是它可以直接操作Excel文件的工作表和单元格，因此非常适合需要对Excel文件进行精细化操作的场景。

处理公式

如果你的Excel文件中包含公式，openpyxl也可以很好地处理它们。默认情况下，openpyxl会计算并返回公式的计算结果，而不是公式本身：

cell_value = ws['B2'].value  # 获取B2单元格的值

如果需要获取原始公式，可以通过以下方式：

cell_formula = ws['B2'].formula  # 获取B2单元格的公式

这使得openpyxl在处理含有公式的Excel文件时更加灵活和可靠。

使用`xlrd`库

xlrd是另一个常用的读取Excel文件的库，特别适用于旧版本的.xls文件。不过需要注意的是，xlrd已经不再维护新版本的.xlsx文件支持，因此建议尽量使用pandas或openpyxl。

pip install xlrd

代码示例

import xlrd

# 打开工作簿
workbook = xlrd.open_workbook('data.xls')
sheet = workbook.sheet_by_index(0)

# 遍历指定列
names = []
for row_idx in range(sheet.nrows):
    names.append(sheet.cell(row_idx, 1).value)

print(names)

尽管xlrd在处理旧版Excel文件方面表现良好，但由于其开发已经停止，所以在选择时应谨慎考虑未来可能遇到的问题。

CDA数据分析师培训推荐

如果你对数据处理和分析感兴趣，或者希望深入学习Python及其相关库的应用，不妨了解一下CDA数据分析师培训课程。CDA（Certified Data Analyst）是国际公认的数据分析师认证标准，涵盖了从基础到高级的数据分析技能。通过系统的学习和实践，你将掌握包括Excel、Python在内的多种工具和技术，成为一名专业的数据分析师。

CDA的课程内容丰富多样，不仅包括理论知识讲解，更有大量的实战项目和案例分析。无论你是初学者还是有一定经验的数据爱好者，都可以在这里找到适合自己的学习路径。此外，CDA还提供职业规划指导和就业推荐服务，帮助学员顺利进入数据行业。