正则表达式:Python与Pandas中的文本搜索利器
1. 正则表达式简介
正则表达式(Regular Expression,常缩写为RegEx)是一种用于文本的搜索模式,它定义了计算机在字符串中应查找的字符逻辑序列。
1.1 简单示例
以网页浏览器的查找功能为例,在大多数浏览器中,Windows系统按 Ctrl - F ,macOS系统按 Command - F 可打开查找对话框,输入字符序列后,浏览器会在网页中搜索这些字符。例如在谷歌浏览器中搜索“romance”。不过,浏览器的查找功能有局限性,只能按字符出现的精确顺序搜索,无法设置如“c”或“a”或“t”这样的条件,而正则表达式能实现这种动态搜索。
1.2 可搜索的内容示例
- 连续的任意两个数字
- 三个或更多字母字符后跟一个空格的序列
- 仅在单词开头的字符“s”
2. Python的re模块介绍
2.1 导入模块
首先创建一个新的Jupyter Notebook,导入 pandas 和 re 模块, re 模块是Python标准库的一部分:
import re
import pandas as pd
2.2 search函数
re </
超级会员免费看
订阅专栏 解锁全文
869

被折叠的 条评论
为什么被折叠?



