replace, astype, unstack等等有趣且方便的函数

原创已于 2024-04-24 10:10:09 修改 · 364 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2024-04-24 10:00:34 首次发布

本文讲解了Pandas中的replace(),astype(),unstack(),unique(),apply(),transform(),fillna(),isnull()及map()等函数，涵盖了数据清洗、类型转换和缺失值管理，是数据分析师必备技能。

此文章作为笔记，后续会进行优化，有错误欢迎提问

replace()函数：

功能：用指定值替换 Series 或 DataFrame 中的元素
示例：

import pandas as pd

# 创建 DataFrame
df = pd.DataFrame({'A': ['N/A', 'B', 'C', 'N/A'], 'B': [1, 2, 3, 4]})

# 使用 replace() 将字符串 "N/A" 替换为 NaN
df['A'].replace("N/A", pd.NA, inplace=True)

使用环境：当你需要将特定值替换为其他值时，例如将缺失值或特定字符串替换为 NaN 或其他特定值
注意事项：需要提供正确的参数，并使用 inplace=True 将更改应用到原始 DataFrame 或 Series 上

astype()函数：

功能：将 Series 中的数据类型转换为指定类型
示例：

# 创建 DataFrame
df = pd.DataFrame({'A': ['1', '2', '3'], 'B': [4, 5, 6]})

# 使用 astype() 将字符串类型转换为整数类型
df['A'] = df['A'].astype(int)

使用环境：将某列的数据类型转换为其他类型时，例如将字符串转换为数字类型。
注意事项：保证转换操作不会导致数据丢失或错误，例如将非数字字符串转换为整数类型可能会引发错误。

unstack()函数：

功能：将多层索引的 DataFrame 转换为单层索引的 DataFrame。
示例：

# 创建多层索引的 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=pd.MultiIndex.from_tuples([('X', 'Y'), ('X', 'Z'), ('Y', 'Z')]))

# 使用 unstack() 将多层索引的 DataFrame 转换为单层索引
df_unstacked = df.unstack()

使用环境：将多层索引的 DataFrame 转换为单层索引时，会进行数据透视或重塑时的使用
注意事项：理解数据结构和需要的转换形式，并在使用之前进行必要的数据清洗和处理

unique()函数：

功能：返回 Series 或 DataFrame 中唯一值的数组。
示例：

# 创建 DataFrame
df = pd.DataFrame({'A': ['X', 'Y', 'X', 'Z'], 'B': [1, 2, 3, 4]})

# 使用 unique() 查找 DataFrame 列中的唯一值
unique_values = df['A'].unique()

使用环境：需要查找 Series 或 DataFrame 中唯一值的列表时，通常在数据探索或分类分析中使用
注意事项：理解数据内容，并注意唯一值的返回顺序可能会影响后续分析

apply()函数：

功能：对 Series 或 DataFrame 的元素应用自定义函数
示例：

# 创建 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# 定义自定义函数
def custom_function(x):
    return x * 2

# 使用 apply() 将函数应用到 DataFrame 列中的每个元素
df['A'] = df['A'].apply(custom_function)

使用环境：对 Series 或 DataFrame 中的每个元素应用自定义函数时，通常用于复杂的数据转换或计算
注意事项：确保自定义函数能够正确地处理输入数据，注意： apply() 函数会在每个元素上独立运行，可能会影响性能
区别注意：对transform()来说，apply() 通常用于对数据进行全局性的自定义处理

transform()函数：

功能：对 Series 或 DataFrame 的每个元素进行转换，并返回一个新的 Series 或 DataFrame
示例：

# 创建 DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# 使用 transform() 对 DataFrame 中的每个元素进行 log 转换
df['A'] = df['A'].transform(lambda x: np.log(x))

使用环境：当你需要对 Series 或 DataFrame 中的每个元素进行转换，并返回一个新的 Series 或 DataFrame 时，通常用于在数据集中添加新的列
注意事项：理解转换逻辑，确保返回的结果与输入数据的形状和结构相匹配，以避免数据不一致或错误

fillna()函数：

作用：fillna() 用于填充 DataFrame 或 Series 中的缺失值（NaN）
特点：fillna() 接受一个值或一个字典作为参数，用于指定要填充的值，可以是单个值，也可以是每列（或每行）对应的值
返回结果：返回一个新的 DataFrame 或 Series，缺失值被填充为指定的值
使用场景：适用于需要将缺失值替换为特定值的情况，例如用 0 替换缺失值、用均值或中位数替换缺失值等

isnull()函数：

作用：isnull() 用于检测 DataFrame 或 Series 中的缺失值（NaN）
特点：isnull() 返回一个布尔类型的 DataFrame 或 Series，其中每个元素的值表示该位置是否为缺失值（True 表示缺失值，False 表示非缺失值）
返回结果：返回一个布尔类型的 DataFrame 或 Series
使用场景：适用于需要检查数据中是否存在缺失值的情况，可以用于筛选数据、计算缺失值的数量等操作

fillna()与isnull()的合作：

isnull() 检测缺失值， fillna() 填充缺失值

import pandas as pd

# 创建示例数据
data = {'A': [1, 2, None, 4, 5],
        'B': [None, 2, 3, 4, None]}
df = pd.DataFrame(data)

# 检测缺失值
print(df.isnull())

# 填充缺失值
filled_df = df.fillna(0)  # 将缺失值填充为 0
print(filled_df)

map()函数：

作用：对 Series 中的每个元素应用一个函数，将函数的结果作为新的 Series 返回。
特点：

把一个函数作为参数，该函数将应用于 Series 中的每个元素
可以是 Python 内置函数、自定义函数或 Lambda 函数
对于 DataFrame，可以对某一列（Series）使用 map() 方法，也可以对整个 DataFrame 使用 applymap() 方法

返回结果：返回一个新的 Series，其中包含应用函数后的结果
使用场景：
- 适用于需要对 Series 中的每个元素进行操作的情况，如数据清洗、数据转换等
- 可以与自定义函数、匿名函数等配合使用，提高代码的灵活性和可读性

与 apply() 和 applymap() 方法不同，map() 方法通常用于 Series 上，而不是整个 DataFrame，map()更适用于对 Series 中的每个元素进行逐个操作

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。