Python Pandas轻松处理大规模类别数据

最新推荐文章于 2025-05-31 07:30:00 发布

原创

最新推荐文章于 2025-05-31 07:30:00 发布 · 1.2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#python #pandas #开发语言

大家好，在数据分析中，类别数据（Categorical Data）是一种常见的数据类型。它表示有限数量的离散值，例如产品类别、性别、国家等。与数值数据不同，类别数据并不代表连续的数值，而是离散的分类信息。处理类别数据是数据预处理的重要环节之一，特别是在进行统计分析或机器学习时。

Pandas提供了专门的工具来处理和优化类别数据，能够有效减少内存占用并提升计算效率。本文将介绍如何使用Pandas处理类别数据，展示类别数据的创建、操作和转换，并通过实际代码示例帮助掌握这些技巧。

1.创建类别数据

在Pandas中，类别数据可以通过 pd.Categorical() 函数创建，也可以直接在 DataFrame 中转换已有的列为类别类型。

1.1 手动创建类别数据

import pandas as pd

# 手动创建类别数据
categories = pd.Categorical(['男', '女', '女', '男', '男'])
print(categories)

输出结果：

[男, 女, 女, 男, 男]
Categories (2, object): [男, 女]

在这个示例中，pd.Categorical() 将一个性别列表转换为类别数据。Pandas自动识别了其中的两个类别：男 和 女。

1.2 将DataFrame中的列转换为类别类型

如果已经有一个数据框，其中某些列包含类别信息，可以使用 astype('category') 方法将这些列转换为类别数据类型。

# 创建示例数据框
data = {
    '姓名': ['张三', '李四', '王五', '赵六'],
    '性别': ['男', '女', '男', '女'],
    '城市': ['北京', '上海', '广州', '北京']
}

df = pd.DataFrame(data)

# 将性别和城市列转换为类别数据类型
df['性别'] = df['性别'].astype('category')
df['城市'] = df['