Pandas 中 nan, extract, round 使用总结

最新推荐文章于 2025-02-28 07:00:00 发布

算法channel

最新推荐文章于 2025-02-28 07:00:00 发布

阅读量345

点赞数

本文作者总结了3个Python数据分析常见问题，包括nan相等性比较、pandas按列extract和正则提取、round四舍五入之谜。为方便演示使用tex排版，文末提供使用数据和pdf下载，有疑问可下载资料学习并私信作者。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Python与算法社区

已原创 452 篇，干货满满

三步加星标

你好，我是 zhenguo

在今天这篇文章，我将总结 3 个Python 数据分析常见问题，分别是：

nan相等性比较问题
pandas 按列 extract 和正则提取
round 四舍五入之谜

为了演示的方便，我使用 tex 排版，文末提供使用数据和pdf下载。

pdf 第一页：

提出nan相等性比较问题；

使用 extract 正则提取，可以实现更复杂的正则表达式提取，很有用；

round 四舍五入问题：

若你有这方面疑问可以下载pdf和google-play-store数据集数据学习，关注视频号，并私信我备注：round

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

算法channel

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

使用Pandas的`extract`函数可以根据正则表达式从DataFrame的指定数据列中抽取出数字，并生成新的数据列

TechCraze的博客

09-04

523

函数返回的是一个新的Series对象，其中包含了匹配的结果。我们可以将这个Series对象直接赋值给DataFrame的一个新的数据列。函数，我们可以方便地从DataFrame的指定数据列中抽取出数字，并生成新的数据列。函数可以根据正则表达式从DataFrame的指定数据列中抽取出数字，并生成新的数据列。函数根据正则表达式从DataFrame的指定数据列中抽取出数字，并生成了新的数据列。安装完成后，我们可以导入Pandas库并加载我们的数据集。中的数字，并将结果存储在一个新的数据列。可以看到，新的数据列。

pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column)

data+scenario+science+insight

03-24

6396

pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column and generate new column)

参与评论您还未登录，请先登录后发表或查看评论

pandas extract()

m0_69097184的博客

07-27

856

在上面的示例中，我们使用`extract()`函数提取了每个字符串中的字母和数字部分。提取的结果是一个包含两列的DataFrame，其中第一列（0）是字母部分，第二列（1）是数字部分。它是通过正则表达式来实现的。`extract()`函数通常是通过`pandas`库的`Series`对象调用的，用于对Series中的字符串进行模式匹配并提取出匹配的部分。需要注意的是，`extract()`函数返回的是一个新的DataFrame或Series对象，而不是修改原始的数据。

Pandas数据处理学习笔记|extract()提取数据

weixin_46706405的博客

03-02

279

代码实现实现效果

Pandas 文本数据方法 extract( )

weixin_44361900的博客

08-29

2180

Pandas 文本数据方法 extract( ) extractall( ) 正则表达式 extract()方法

pandas 常用函数--round()

牛腩面的博客

11-21

2万+

pandas.DataFrame.round(decimals ) decimals : int, dict, Series df = pd.DataFrame(np.random.random([3, 3]), columns=['A', 'B', 'C'], index=['first', 'second', 'third']) print(df) ...

cumei1658的博客

07-13

2128

【Python基础知识库】Pandas库中的函数

holysll的博客

04-21

8416

Pandas 是基于NumPy 的一种工具，支持大部分的Numpy语言风格的数组计算，尤其是数组函数以及没有for循环的各种数据处理。尽管Pandas采用了很多Numpy的代码风格，但最大的不同在于Pandas是用来处理表格型或异质型数据的，而Numpy更适合处理同质型的数值类数组数据。 Pandas 所包含的数据结构和数据处理工具的设计，使得数据清洗和分析非常快捷，并经常和其他...

Pandas数据分析库

Littleluck_Dream的博客

07-25

892

目录就是HDF5中的group, 描述了数据集dataset的分类信息，通过group 有效的将多种dataset 进行管理和区分；这些运算是关系型数据库的核心操作。DataFrame是由多种类型的列构成的二维标签数据结构，类似于 Excel 、SQL 表，或 Series 对象构成的字典。HDF5，可以存储不同类型数据的文件格式，后缀通常是.h5，它的结构是层次性的。最直观的理解，可以参考我们的文件管理系统，不同的文件位于不同的目录下。数据中的薪水是一个区间，这里用薪水区间的均值作为相应职位的薪水。

Pandas进阶捌文本处理

qq_32844743的博客

01-06

282

Pandas进阶捌文本处理 pandas进阶系列根据datawhale远昊大佬的joyful pandas教程写一些自己的心得和补充本文部分引用了原教程，并参考了《利用Python进行数据分析》 pandas官网 python官网 learn-regex-zh 另注：本文是对joyful pandas教程的延伸，完整理解需先阅读joyful pandas教程第八章五、练习 Ex1：房屋信息数据集现有一份房屋信息数据集如下：将year列改为整数年份存储。将floor列替换为Level, H

Pandas10--时序数据

OohMuYi的博客

01-10

275

目录1 时序中的基本对象2 时间戳2.1 Timestamp的构造与属性2.2 Datetime序列的生成2.3 dt对象 1 时序中的基本对象 2 时间戳 2.1 Timestamp的构造与属性 2.2 Datetime序列的生成 2.3 dt对象

Pandas 文本数据方法 extract( ) extractall( )

热门推荐

Claroja

03-22

3万+

Series.str.extract(pat, flags=0, expand=None)参数: pat : 字符串或正则表达式 flags : 整型, expand : 布尔型,是否返回数据框 Returns: 数据框dataframe/索引indexSeries.str.extractall(pat, flags=0) 参数: pat : 字符串或正则表达式 flags :

pandas文本处理双雄extract + extractall

尤尔小屋

02-19

1595

公众号：尤而小屋作者：Peter编辑：Peter 大家好，我是Peter~ 今天给大家介绍两个Pandas中处理文本数据的函数，主要功能是从文本内容中提取想要的信息：extract + extractall extract函数语法说明 extract函数的具体使用形式如下，只有3个参数： Series.str.extract(pat, flags=0, expand=None) 参数的具体解释为： pat：字符串或者正则表达式 flags：整型 expand：布尔值，是否返回DataFrame.

Pandas文本处理双雄extract+extractall

fengdu78的博客

02-21

928

公众号：尤而小屋作者：Peter编辑：Peter今天给大家介绍两个Pandas中处理文本数据的函数，主要功能是从文本内容中提取想要的信息：extract + extractall建议：如果...

extract（）用法

BIT_mk的博客

07-20

1231

方法会根据指定的模式在每个字符串中查找匹配的子字符串，并将其提取出来。提取的结果可以是单个字符串或多个字符串（如果有多个命名分组）。是 Pandas 中字符串处理功能的一部分，用于从字符串中提取匹配的子字符串。

pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字(设置expand=false之后返回的为series)、将series转化为dataframe

data+scenario+science+insight

01-12

4533

pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字(设置expand=false之后返回的为series)、把pandas series转化为pandas dataframe

拯救pandas计划（22）——再话extract和extractall

pdcfighting的博客

07-14

937

拯救pandas计划（22）——再话extract和extractall最近发现周围的很多小伙伴们都不太乐意使用pandas，转而投向其他的数据操作库，身为一个数据工作者，基本上是张口pandas，闭口pandas了，故而写下此系列以让更多的小伙伴们爱上pandas。系列文章说明：系列名（系列文章序号）——此次系列文章具体解决的需求平台：windows 10python ...

Pandas使用教程 - 字符串操作高级技巧 (extract, findall)

qq_42568323的博客

02-28

748

本文详细介绍了 Pandas 中字符串操作的高级技巧，重点讨论了和的应用。利用正则表达式捕获组从字符串中提取关键信息，返回一个 DataFrame 或 Series。适用于提取单个匹配值，如日期、电子邮件等。查找字符串中所有匹配正则表达式的子串，并以列表形式返回。适用于可能存在多个匹配项的场景，如提取所有电话号码、关键词等。通过多个示例，我们展示了如何在实际数据清洗、特征工程和文本分析中灵活应用这些方法。

【Pandas】Pandas处理本文数据

探索世界，改变世界

09-18

1295

目录使用文本数据拆分和替换字符串连接将单个系列连接成字符串将系列和类似列表连接成一个系列将系列和类似数组的类连接成一个系列将系列和索引对象连接成一个系列，具有对齐将一系列和多个对象连接成一个系列索引与.str 提取子字符串提取每个主题的第一场比赛（摘录）提取每个主题的所有匹配（extractall）测试匹配或包含模式的字符串创建指标变量方法...

m_index = df[pd.to_numeric(df[‘Bytes’], errors=‘coerce’).isnull() == True].index df[‘Bytes’].loc[m_index] = df[‘Bytes’].loc[m_index].apply(lambda x: 10e6 * float(x.strip().split()[0])) df[‘Bytes’] = pd.to_numeric(df[‘Bytes’], errors=‘coerce’, downcast=‘integer’)报错D:\anaconda3\envs\pytorch\lib\site-packages\pandas\core\indexing.py:1732: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy self._setitem_single_block(indexer, value, name) D:\anaconda3\envs\pytorch\lib\site-packages\pandas\core\dtypes\cast.py:339: RuntimeWarning: invalid value encountered in cast new_result = trans(result).astype(dtype)

最新发布

03-24

<think>好的，我现在需要帮用户解决他们遇到的pandas报错问题。首先，我要仔细理解他们提供的代码和错误信息。用户给出的代码片段有三部分： 1. `m_index = df[pd.to_numeric(df['Bytes'], errors='coerce').isnull() == True].index`：这里可能是在找出'Bytes'列中无法转换为数字的行索引。 2. `df['Bytes'].loc[m_index] = ...`：尝试对这些有问题的行进行转换，比如处理带有单位的字符串，比如将"10 MB"转换为10e6。 3. `df['Bytes'] = pd.to_numeric(df['Bytes'], errors='coerce', downcast='integer')`：最后将整个列转换为数值类型，并尝试向下转换为整数。出现的错误有两个： - SettingWithCopyWarning：这说明用户可能在操作一个DataFrame的副本而不是视图，导致pandas无法确定修改是否会影响原始数据。 - RuntimeWarning：在转换过程中出现了无效值，可能是转换后的数据中存在无法处理的情况，比如浮点数无法转换为整数。接下来，我需要分析可能的原因：首先，SettingWithCopyWarning通常发生在链式赋值时。用户使用`df['Bytes'].loc[m_index]`进行赋值，这可能触发了该警告。因为如果df本身是另一个DataFrame的切片副本，pandas会不确定修改是否反映到原数据。解决方法可以是确保df是原始数据的副本，或者使用`.loc`来明确修改的位置。其次，RuntimeWarning发生在最后一步的`pd.to_numeric`，特别是当尝试将包含浮点数的数据转换为整数时。例如，如果之前用`10e6`转换后的值是浮点数（比如10000000.0），而`downcast='integer'`会尝试将其转为整数类型，但如果有NaN或其他无效值存在，可能会导致转换错误。可能的解决步骤： 1. 处理SettingWithCopyWarning： - 确保df不是其他DataFrame的切片。可以在创建df时使用`.copy()`来避免这个问题。 - 使用单一.loc访问器来同时选择行和列，例如`df.loc[m_index, 'Bytes'] = ...`，这样更明确且避免链式索引。 2. 处理RuntimeWarning： - 检查转换后的'Bytes'列是否包含非整数值。例如，使用`apply`转换后的值可能有浮点数，而`downcast='integer'`无法处理，可以尝试去掉`downcast`参数，或者先转换为浮点类型，再处理整数转换。另外，用户可能在处理数据时，例如将字符串转换为数值时，存在一些无法转换的情况，导致`pd.to_numeric`中出现错误。需要确保在apply步骤中所有处理过的值都能正确转换为数字，或者使用`errors='coerce'`来将无效值转为NaN。可能的代码调整：修改链式索引：原代码中的`df['Bytes'].loc[m_index]`可以改为`df.loc[m_index, 'Bytes']`，这样更符合pandas推荐的方式，减少警告的发生。处理浮点数到整数的转换：如果最终需要整数类型，可以在apply阶段就将结果转为整数，或者在最后不使用downcast，而是显式转换类型，比如`astype('Int64')`（pandas的可空整数类型）。此外，还需要检查是否有其他数据问题，例如转换后的值是否超出了整数范围，或者在apply过程中是否有异常数据未被正确处理。总结步骤： 1. 使用.loc[m_index, 'Bytes']替代链式索引。 2. 确保df不是视图，使用df = original_df.copy()。 3. 检查转换后的数据是否适合转换为整数，或调整downcast参数。 4. 处理可能的NaN或无效值，确保转换过程无误。这样应该能解决用户的报错问题。</think>让我们逐步分析并解决你的代码中的问题： 1. **理解代码意图**： - 该代码主要处理'Bytes'列的数据清洗： 1) 找出无法直接转换为数字的行（如含单位的字符串"10 MB"） 2) 对异常值进行单位转换（如将MB转换为字节数） 3) 最后统一转换为数值类型 2. **警告原因分析**： - ⚠️`SettingWithCopyWarning`： - 触发原因：对DataFrame副本进行操作（可能是通过`df = original_df[condition]`方式创建的视图） - 风险：修改可能不会反映到原始数据中 - 解决方案：使用`.copy()`创建独立副本 ```python df = original_df.copy() # 在数据预处理阶段添加 ``` - ⚠️`RuntimeWarning`： - 触发原因：浮点数强制转换为整数时出现精度损失（如10000000.5转为整数） - 根源：`apply(lambda x: 10e6 * ...)`会产生浮点数，但`downcast='integer'`要求整型 3. **改进后的代码方案**： ```python # 步骤1：创建独立副本（如果df是切片产生的） df = df.copy() # 步骤2：定位需要转换的非数值数据 non_numeric_mask = pd.to_numeric(df['Bytes'], errors='coerce').isna() m_index = df[non_numeric_mask].index # 步骤3：使用安全的.loc赋值方式 df.loc[m_index, 'Bytes'] = ( df.loc[m_index, 'Bytes'] .apply(lambda x: 10e6 * float(x.strip().split()[0])) # 示例转换逻辑 ) # 步骤4：转换时处理数值类型（推荐方案） # 方案A：保持浮点类型（推荐） df['Bytes'] = pd.to_numeric(df['Bytes'], errors='coerce') # 方案B：强制转换为整数（需确保无小数） df['Bytes'] = pd.to_numeric( df['Bytes'], errors='coerce', downcast='integer' ).astype('Int64') # 使用pandas可空整数类型 ``` 4. **优化建议**： - 使用正则表达式提取数值更健壮： ```python df.loc[m_index, 'Bytes'] = ( df.loc[m_index, 'Bytes'] .str.extract(r'([\d.]+)')[0] .astype(float) .mul(10e6) ) ``` - 处理不同单位更灵活： ```python def convert_units(x): num, unit = x.strip().split() multiplier = { 'KB': 1e3, 'MB': 1e6, 'GB': 1e9 }.get(unit.upper(), 1) return float(num) * multiplier ``` 5. **完整解决方案**： ```python # 确保操作独立副本 df = df.copy() # 创建单位转换字典 UNIT_CONVERSION = { 'KB': 10**3, 'MB': 10**6, 'GB': 10**9 } # 处理带单位的数据 def convert_bytes(value): try: number, unit = value.strip().split() return float(number) * UNIT_CONVERSION.get(unit.upper(), 1) except: return np.nan # 分步处理 df['Bytes'] = ( df['Bytes'] .astype(str) .apply(lambda x: convert_bytes(x) if any(c.isalpha() for c in x) else x) .pipe(pd.to_numeric, errors='coerce') ) ``` 这种方案可以： ✅ 避免链式索引警告 ✅ 自动处理多种单位 ✅ 保留数值精度 ✅ 正确处理异常值如果仍需存储为整数，建议最后添加： ```python df['Bytes'] = df['Bytes'].round().astype('Int64') ```