数据分析 — Pandas 数据处理

最新推荐文章于 2025-10-21 19:42:02 发布

原创

最新推荐文章于 2025-10-21 19:42:02 发布 · 3.9k 阅读

62 ·

CC 4.0 BY-SA版权

文章标签：

#数据分析 #pandas

一、简介

1、概念

Pandas（Python Data Analysis Library）是一个基于 NumPy 的数据分析工具，专为解决数据分析任务而创建。它汇集了大量库和一些标准的数据模型，可以更高效地操作大型数据集。

2、特点

数据结构： Pandas 提供了两种主要的数据结构，即 Series 和 DataFrame，用于处理一维和二维数据。
标签化： 数据结构带有标签，可以通过标签进行轴向操作，提高了数据操作的灵活性。
数据清洗： 提供了丰富的功能用于处理缺失值、重复项、异常值等，使数据更整洁。
数据操作： 支持各种数据操作，包括合并、连接、分组、聚合等，满足多种数据分析需求。
时间序列： 强大的时间序列处理功能，方便处理时间相关的数据。

3、引用

pip install pandas

import pandas as pd # 导入 Pandas 库并使用别名 pd

二、数据结构

1、Series

基本属性

values：返回底层的 NumPy 数组，包含 Series 中的数据。

index：返回索引对象，提供标签信息，用于标识每个数据点。

dtype：返回数据的数据类型，表示 Series 中存储的元素类型。

shape：返回数据的形状，对于一维数据，返回的是单元素元组。

size：返回数据的元素个数，表示 Series 中包含的数据点的数量。

nbytes：返回数据的字节大小，即存储数据所需的字节数。

ndim：返回数据的维度，对于 Series 来说，始终为1。

name：返回或设置 Series 的名称，可以用于标识 Series 对象的用途或含义。

import pandas as pd  # 导入 Pandas 库并使用别名 pd

# 创建一个 Series 对象
s = pd.Series([1, 2, 3, 4, 5], name='my_series')

print(s.values)  # [1 2 3 4 5]
print(s.index)  # RangeIndex(start=0, stop=5, step=1)
print(s.dtype)  # int64
print(s.shape)  # (5,)
print(s.size)  # 5
print(s.nbytes)  # 40
print(s.ndim)  # 1
print(s.name)  # my_series

创建

import pandas as pd  # 导入 Pandas 库并使用别名 pd
import numpy as np  # 导入 NumPy 库并使用别名 np

# 从列表创建 Series
s1 = pd.Series([1, 2, 3, 4, 5])
print(s1)
# 0    1
# 1    2
# 2    3
# 3    4
# 4    5
# dtype: int64

# 从字典创建 Series
s2 = pd.Series({
   
   'a': 1, 'b': 2, 'c': 3})
print(s2)
# a    1
# b    2
# c    3
# dtype: int64

# 从 Numpy 数组创建 Series
s3 = pd.Series(np.array([1, 2, 3, 4, 5]))
print(s3)
# 0    1
# 1    2
# 2    3
# 3    4
# 4    5
# dtype: int32

# 从字典和标签列表创建 Series
s4 = pd.Series({
   
   'a': 1, 'b': 2, 'c': 3}, index=['a', 'b', 'c'])
print(s4)
# a    1
# b    2
# c    3
# dtype: int64

取值

import pandas as pd  # 导入 Pandas 库并使用别名 pd

# 创建一个 Series 对象
s = pd.Series([1, 2, 3, 4, 5], index=['a', 'b', 'c', 'd', 'e'])

# 通过索引取值
value = s['b']
print(value)  # 2

# 通过切片取值
slice_values = s['a':'c']
print(slice_values)
# a    1
# b    2
# c    3
# dtype: int64

# 取第二行
row_value = s.iloc[1]
print(row_value)  # 2

2、DataFrame

基本属性

values：返回底层的 NumPy 数组，包含 DataFrame 中的数据。

columns：返回列名，表示 DataFrame 中每列的标签。

index：返回索引对象，提供标签信息，用于标识每行数据。

shape：返回数据的形状，是一个元组，表示DataFrame的行数和列数。

dtypes：返回每列的数据类型，表示 DataFrame 中存储的元素类型。

size：返回数据的元素个数，表示 DataFrame 中包含的数据点的总数量。

import pandas as pd  # 导入 Pandas 库并使用别名 pd

# 创建一个 DataFrame 对象
data = {
   
   'name': ['Tom', 'Nick', 'John'], 'Age': [20, 21, 19]}
df = pd.DataFrame(data)

print(df.columns)  # Index(['name', 'Age'], dtype='object')

print(df.index)  # RangeIndex(start=0, stop=3, step=1)

print(df.values)
# [['Tom' 20]
#  ['Nick' 21]
#  ['John' 19]]

print(df.shape)  # (3, 2)

print(df.dtypes)
# name    object
# Age      int64
# dtype: object

print(df.size