Pandas 库常用数据类型与数据结构笔记

一、Pandas 简介


Pandas 是一个为 Python 提供高效数据操作和分析的库。它广泛应用于数据科学和数据分析领域,提供两种基本的数据结构:Series 和 DataFrame。

二、常用数据类型

在 Pandas 中,常用的数据类型主要有以下几种:

1. Logical(布尔型)

  •    - 布尔型数据用于表示真(True)或假(False)的值。在数据分析中,布尔型可以用于条件过滤。
  •    - 在 Pandas 中,布尔值可以使用 Python 的内置 `bool` 类型。
import pandas as pd

# 创建布尔型 Series
s = pd.Series([True, False, True])
print(s)

2. Numeric(数值型)

  •    - 数值型数据用于表示整数和浮点数。在 Pandas 中,数值型通常使用 `int` 或 `float` 类型。
  •    - Pandas 支持多种数值数据类型,包括 `int64`, `float64` 等。
# 创建数值型 Series
numeric_series = pd.Series([1, 2, 3.5, 4])
print(numeric_series)

3. Character(字符型)


   - 字符型数据用于表示文本字符串。在 Pandas 中,字符型数据使用 Python 的内置 `str` 类型。
   - Pandas 对字符串数据提供了丰富的操作和处理方法。

# 创建字符型 Series
char_series = pd.Series(['apple', 'banana', 'cherry'])
print(char_series)

三、 常用数据结构

Pandas 提供的主要数据结构有 `Series` 和 `DataFrame`。

1. Series

  •    - Series 是一种一维的数组,类似于列表或字典。每个元素都有一个索引,因此可以通过索引访问数据。
  •    - Series 可以存储各种数据类型(逻辑型、数值型、字符型等)。
# 创建一个 Series
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
print(s)

# 访问特定元素
print(s['b'])  # 输出2

2. DataFrame

  •    - DataFrame 是一种二维的表格型数据结构,有行索引和列索引,可以认为是多个 Series 的集合。每列可以用不同的数据类型存储。
  •    - DataFrame 常用于处理和分析结构化数据。
# 创建一个 DataFrame
data = {
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'score': [88.5, 92.3, 79.5]
}
df = pd.DataFrame(data)
print(df)

# 访问 DataFrame 的某一列
print(df['name'])  # 输出姓名列

# 访问 DataFrame 的某一行
print(df.loc[1])   # 输出第二行的数据(Bob)

四、 数据选择与操作

 1. 选择数据

  • - 使用中括号 `[]` 或 `loc` 方法选择 DataFrame 的行与列。
# 选择特定列
print(df['age'])

# 选择特定行
print(df.loc[0])  # 选择第一行

# 选择特定行和列
print(df.loc[1, 'name'])  # 选择第二行的名字

 2. 条件过滤

  • - 使用布尔条件进行过滤,得到满足条件的数据。
# 获取年龄大于30岁的行
print(df[df['age'] > 30])

 3. 数据添加与删除

  • - 可以通过 `assign` 和 `drop` 方法添加新的列和删除指定的列。
# 添加新列
df['passed'] = df['score'] >= 80
print(df)

# 删除列
df = df.drop(columns=['passed'])
print(df)

4. 数据基本统计

  • - 使用 `describe` 方法获取数据的基本统计信息。
print(df.describe())

 五、总结


Pandas 是一个功能强大的库,适用于数据清洗、分析和可视化。熟悉其基本数据类型和数据结构(Series 和 DataFrame)是高效使用 Pandas 的基础。此外,掌握数据选择、过滤、添加、删除以及基本统计的方法,有助于在实际数据分析中更便捷地操作数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值