使用Pandas的`extract`函数可以根据正则表达式从DataFrame的指定数据列中抽取出数字，并生成新的数据列

前端设计家

于 2023-09-04 00:50:12 发布

阅读量556

点赞数 1

CC 4.0 BY-SA版权

文章标签： pandas 正则表达式 Python

本文链接：https://blog.youkuaiyun.com/TechCraze/article/details/132659119

Python 专栏收录该内容

98 篇文章 ¥59.90 ¥99.00

订阅专栏

本文介绍了如何使用Pandas的`extract`函数结合正则表达式，从DataFrame的特定列中提取数字并创建新列。通过实例展示了安装Pandas，创建DataFrame，使用`extract`函数匹配数字，以及将新列转换为整数类型的步骤。

使用Pandas的extract函数可以根据正则表达式从DataFrame的指定数据列中抽取出数字，并生成新的数据列。在本文中，我们将详细介绍如何使用extract函数以及提供相应的源代码。

首先，我们需要安装Pandas库。可以使用以下命令来安装Pandas：

pip install pandas

安装完成后，我们可以导入Pandas库并加载我们的数据集。假设我们有一个名为dataframe的DataFrame，其中包含一个名为text_column的数据列，该数据列包含一些文本字符串。

import pandas as pd

# 创建示例DataFrame
data = {
   
   'text_column': [

了解本专栏

订阅专栏解锁全文

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

前端设计家

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

订阅专栏

pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column)

data+scenario+science+insight

03-24

6494

pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字并生成新的数据列(extract numbers from column and generate new column)

使用pandas的extract函数从DataFrame的特定数据列中抽取数字并创建新的数据列

持续更新

06-02

718

然后，我们将提取出的数字存储在名为“AgeStart”和“AgeEnd”的新数据列中。如果我们用多个组提取字符串中的多个数字，我们可以使用类似于“(\d+)-(\d+)”这样的正则表达式。使用Pandas的extract函数，我们可以方便地从DataFrame中的特定数据列中抽取数字并创建新的数据列。在上面的代码中，我们使用了正则表达式“(\d+)”，它会匹配至少一个数字，并将其提取出来。使用pandas的extract函数从DataFrame的特定数据列中抽取数字并创建新的数据列。

参与评论您还未登录，请先登录后发表或查看评论

如何从dataframe中一列含有字母和数组的值中提取其中的数字

amuyiweiyang的博客

06-04

2457

date例子： Price: 2450.000000, C: 618.000000, P: 0.500000, Diff: 617.500000, YSettle_C: 618.000000, YSettle_P: 0.500000 Price: 2500.000000, C: 568.000000, P: 0.500000, Diff: 567.500000, YSettle_C: 568.000000, YSettle_P: 0.500000 Price: 2550.000000, C: 518.50

pandas正则表达式，提取汉字、字母、数字、罗马数字

weixin_46276803的博客

03-09

1万+

仅提取汉字 str_stationname = re.findall('[\u4e00-\u9fa5]+',str) 提取英文字母和数字，要匹配什么，在后面加上就行 '[\a-zA-Z0-9ⅠⅡⅢⅣⅤⅥⅦⅧⅨⅩ]+' 附：https://www.cnblogs.com/BluceLee/p/11419302.html 史上最全的正则表达式-匹配中英文、字母和数字在做项目的过程中，使用正则表达...

42_Pandas字符串中提取正则表达式来生成新列

qq_18351157的博客

04-30

8602

42_Pandas字符串中提取正则表达式来生成新列如何通过从以字符串为元素的pandas.DataFrame列和pandas.Series中提取带有正则表达式的特定字符串来生成新列。使用以下字符串方法。 str.extract（）：仅提取第一个匹配项 str.extractall（）：提取所有匹配项如果要从pandas.DataFrame的列中提取，可以指定列（= pandas.Series），例如df [‘column name’]，然后调用str.extract（）或str.extractal

pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字(设置expand=false之后返回的为series)、将series转化为dataframe

data+scenario+science+insight

01-12

4630

pandas使用extract函数根据正则表达式从dataframe指定数据列的字符串中抽取出数字(设置expand=false之后返回的为series)、把pandas series转化为pandas dataframe

Python处理数据常见问题解决方案（1）如何把DataFrame(Excel表格或CSV表格)中的某一列中的数字提取出来，生成新的一列。（正则表达式/Replace）

weixin_42132740的博客

06-19

5370

欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：全新的界面设计，将会带来全新的写作体验；在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式进行展示；增加了图片

pandas 利用 正则表达式 从文本中提取数字

power的专栏

10-29

3631

需要从text特征中提取形如 13.5/10 这样的字符串，再分别提取分子分母。 1）可以利用str.extract()方法。 2）利用正则表达式\d+\.?\d*\/\d+进行匹配 3）再利用.split()方法提取分子分母 id lable train/395017260.png 0 train/392533560.png 0 train/359114469.png 1 t...

正则表达式提取数字

johncools的博客

12-11

2203

/// /// 获取字符串中的数字 /// /// /// private int GetNumber(string par) { string strTempContent =par; strTempContent = System.Text.RegularExpressions.Regex.Replace(strTempContent, @"[^/d]*", "")

pandas 从文本中提取数字（正则表达式）

zjmy的博客

03-18

9247

需要从text特征中提取形如 13.5/10 这样的字符串，再分别提取分子分母。 1）可以利用 str.extract() 方法。 2）利用正则表达式 \d+.?\d*/\d+ 进行匹配 3）再利用 .split() 方法提取分子分母代码： test.text.tolist() output [‘This is Bella. She hopes her smile made you smile....

Pandas 中 nan, extract, round 使用总结

算法channel

01-13

357

Python与算法社区已原创452篇，干货满满三步加星标010203三步加星标你好，我是 zhenguo在今天这篇文章，我将总结 3 个Python 数据分析常见问题，分别是：nan...

用正则从pandas.DataFrame的列中提取字符

明而决之

04-09

6291

从pandas.DataFrame的列中提取字符，文中涉及到两种方法，一是使用map()处理，而是通过正则处理

DataFrame截断某行(列)之前(后)的数据DataFrame.truncate()

liujingwei8610的专栏

11-01

746

DataFrame截断某行(列)之前(后)的数据 DataFrame.truncate()

python pandas 用正则表达式 抽取 dataframe种多列数据，组成新的 dataframe

weixin_42668334的博客

05-14

992

试dataframe140多列数据，抽取几列数据出来，没有成功。在网上搜索学习，看到用正则表达式，恰好4列试相同的，试了一下成功。以下是片段，原文太大就不贴了。 df2 = df.filter(regex='^PWM') # begin with PWM; print("to print dft2, all items begin with PWM:") df2.to_excel(writer, sheet_name="PWM") print(df2) 原文是某个字母结束的。 print(df.fil

pandas对具体列的内容通过正则表达式进行数据提取

weixin_43306433的博客

06-02

4623

使用前要确保该列的类型统一，str或者float格式，最好事先通过astype强制转换一下； df[‘new_col’] = df[‘selected_col’].str.extract(‘正则表达式’, expand = True)

pandas.Series.str.extract 正则提取数据

最新发布

03-25

<think>好的，用户的问题是关于如何用正则表达式提取DataFrame第一列的所有行，并将提取的内容存入新的DataFrame。我需要一步步思考如何解决这个问题，同时确保回答清晰易懂。首先，用户可能在使用Python的pandas库处理数据。他们有一个DataFrame，其中第一列包含文本数据，需要从中提取特定模式的内容。常见的应用场景可能是处理日志文件、字符串数据清洗或信息抽取。接下来，我需要确定用户的具体需求。他们提到使用正则表达式，所以需要明确如何应用正则表达式到pandas的列上。可能涉及到pandas的str.extract()或str.extractall()方法。但用户只要提取到新的DataFrame，所以可能需要创建一个新的DataFrame来存放结果，或者将提取的结果添加到原DataFrame的新列中。然后，我应该考虑用户可能不熟悉正则表达式的语法，或者如何正确应用这些方法。需要提供一个简单的例子，说明如何编写正则表达式模式，并演示如何使用pandas的函数进行提取。例如，假设第一列的数据中有数字部分需要提取，可以使用\d+这样的模式。另外，用户可能遇到的情况包括：提取的内容是否存在多个匹配、是否需要处理缺失值、是否需要命名捕获组等。这些都需要在回答中提及，并提供相应的解决方案，比如使用expand=True参数，或者处理NaN值的情况。还要注意，可能需要提醒用户检查正则表达式的有效性，确保模式能正确匹配目标内容。建议用户先测试正则表达式，例如使用在线的正则表达式测试工具，或者在Python中单独测试提取函数的结果。最后，总结步骤：导入pandas，读取数据，应用str.extract()方法，处理可能的异常情况，生成新的DataFrame。同时，给出一个完整的代码示例，帮助用户直接复制和调整他们的实际需求。可能还需要提到其他相关的方法，比如str.extractall()用于多个匹配的情况，或者结合其他字符串方法如dropna()来清理数据。确保用户了解不同方法之间的区别和适用场景。</think>在Pandas中提取DataFrame第一列数据并正则处理，可分为5个步骤： 1. **数据准备** ```python import pandas as pd # 原始数据示例 data = {'col1': ['ABC123', 'DEF-456', 'GHI_789', '无效数据']} df = pd.DataFrame(data) ``` 2. **正则表达式编写** 假设需要提取字母和数字组合： - 模式：`([A-Z]+)[^0-9]*([0-9]+)` - 解释：捕获大写字母和后续数字 3. **执行提取操作** ```python # 提取并创建新DataFrame new_df = df['col1'].str.extract( r'([A-Z]+)[^0-9]*([0-9]+)', expand=True ).rename(columns={0: '字母', 1: '数字'}) ``` 4. **处理异常值** ```python # 删除无效记录 new_df = new_df.dropna() ``` 5. **结果验证** ```python print(new_df) ''' 字母数字 0 ABC 123 1 DEF 456 2 GHI 789 ''' ``` **关键参数说明：** - `str.extract()`：核心提取方法 - `expand=True`：保证返回DataFrame - `rename()`：自定义列名 - `dropna()`：清理无效数据 **扩展应用：** - 多条件匹配：`r'(?P<前缀>[A-Z]{3})-(?P<编号>\d+)'` - 多次匹配：`str.extractall()` - 保留原数据：`pd.concat([df, new_df], axis=1)` **正则调试建议：** 1. 使用[regex101.com](https://regex101.com/)在线测试 2. 先做小样本测试：`df['col1'].head(5).str.extract(...)` 3. 处理特殊符号时记得转义：如`\d`匹配数字，`\.`匹配点号