df.replace(regex={‘b‘: {r‘\s\.\s‘: np.nan}})

最新推荐文章于 2025-05-18 18:04:00 发布

原创最新推荐文章于 2025-05-18 18:04:00 发布 · 717 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则表达式

部署运行你感兴趣的模型镜像

这段代码 df.replace(regex={'b': {r'\s*\.\s*': np.nan}}) 试图使用正则表达式替换 DataFrame 中 'b' 列的值，具体行为是：替换所有包含零个或多个空白字符以及一个点（.）的值为 np.nan。

详细解析：

df.replace()：这是 Pandas 中的 replace() 方法，用于替换 DataFrame 中的值。
regex={'b': {r'\s*\.\s*': np.nan}}：
- regex 参数指定了在替换时使用正则表达式。
- {'b': {...}} 表示要对列 'b' 进行替换。
- {r'\s*\.\s*': np.nan} 是一个字典，表示要匹配的正则表达式和替换的值：
  - r'\s*\.\s*' 是正则表达式，用来匹配零个或多个空白字符加一个点（.）再加零个或多个空白字符。
  - np.nan 是替换的目标值，表示缺失值。

替换的操作：

在 'b' 列中，所有值匹配正则表达式 \s*\.\s* 的地方（即含有点和前后空白字符的地方）都会被替换成 np.nan。

示例：

假设你有一个 DataFrame，如下所示：

import pandas as pd
import numpy as np

# 示例 DataFrame
df = pd.DataFrame({
    'a': [1, 2, 3],
    'b': [' . ', 'x', ' .']
})

# 使用 replace() 方法替换
df = df.replace(regex={'b': {r'\s*\.\s*': np.nan}})

print(df)