Python正则表达式全栈开发进阶指南：从零基础到项目实战

最新推荐文章于 2025-12-08 16:56:34 发布

原创最新推荐文章于 2025-12-08 16:56:34 发布 · 889 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#python #正则表达式 #macos #pip

Python 专栏收录该内容

101 篇文章

订阅专栏

文章目录

Python正则表达式全栈开发进阶指南：从零基础到项目实战

Python正则表达式全栈开发进阶指南：从零基础到项目实战

正则表达式（Regular Expression）是一种用于描述字符串模式的强大工具，在文本匹配、提取、清洗和验证等场景中发挥着不可替代的作用。Python通过内置的re模块提供了完整的正则表达式支持，从简单的字符串搜索到复杂的语法解析，正则表达式都是提升开发效率的关键技术。本文将系统拆解正则表达式的学习路径，从零基础语法到项目实战应用，涵盖核心知识点、代码示例、最佳实践及注意事项，帮助开发者构建从理论到落地的完整知识体系。

一、阶段一：正则表达式基础与Python `re`模块入门（1周）

核心目标

理解正则表达式的基本概念，掌握Python re模块的核心函数，能使用简单模式匹配字符串。

必备知识点

正则表达式的核心价值
- 定义：用预设模式描述字符串的规则，实现对文本的高效检索、匹配和处理。
- 优势：相比字符串方法（如str.find()），正则表达式可通过简洁模式处理复杂文本规则，减少代码量。
Python re模块基础
- 导入：import re。
- 核心函数：
  - re.match(pattern, string)：从字符串开头匹配模式，返回Match对象或None。
  - re.search(pattern, string)：在字符串任意位置匹配模式，返回第一个匹配的Match对象或None。
  - re.findall(pattern, string)：返回所有匹配的子串列表。
  - re.sub(pattern, repl, string)：用repl替换所有匹配的子串，返回新字符串。
基础匹配规则
- 普通字符：直接匹配自身（如'abc'匹配字符串中的'abc'）。
- 特殊元字符（需转义）：. ^ $ * + ? { } [ ] ( ) | \，初始阶段先掌握.（匹配任意字符，除换行）和\（转义字符）。

实践示例：基础匹配与`re`模块使用

import re

# 1. re.match：从开头匹配
text = "Python is powerful; Python is easy to learn."
# 匹配以"Python"开头的字符串
match_result = re.match(r'Python', text)
print("match结果：", match_result.group() if match_result else "无匹配")  # 输出：Python

# 2. re.search：任意位置匹配（返回第一个匹配）
search_result = re.search(r'powerful', text)
print("search结果：", search_result.group() if search_result else "无匹配")  # 输出：powerful

# 3. re.findall：查找所有匹配
# 查找所有"Python"
python_matches = re.findall(r'Python', text)
print("findall结果：", python_matches)  # 输出：['Python', 'Python']

# 4. re.sub：替换匹配内容
# 将"Python"替换为"Java"
new_text = re.sub(r'Python', 'Java', text)
print("sub替换后：", new_text)  # 输出：Java is powerful; Java is easy to learn.

# 5. 元字符.的使用（匹配任意字符）
# 匹配"is X"，其中X是任意字符（空格+任意字符）
is_pattern = re.findall(r'is .', text)
print("带.的匹配：", is_pattern)  # 输出：['is ', 'is ']（注意空格也是字符）

# 6. 转义字符\的使用（匹配特殊字符）
special_text = "Price: $99.99; Discount: 10%"
# 匹配$符号（需转义，因为$是元字符）
price_match = re.search(r'\$', special_text)
print("匹配$：", price_match.group() if price_match else "无匹配")  # 输出：$

注意事项

原始字符串（r前缀）：定义正则模式时务必使用原始字符串（如r'pattern'），避免Python解释器对\进行二次转义（如r'\d'才会被正则引擎识别为匹配数字，而非'\\d'）。
match与search的区别：match仅从字符串开头匹配（适合验证字符串格式），search匹配任意位置（适合查找内容），避免混淆导致漏匹配。
无匹配的处理：match和search返回None时，调用group()会报错，需先判断是否匹配（如if result: print(result.group())）。

二、阶段二：核心语法与元字符（2周）

核心目标

掌握正则表达式的核心元字符（字符集、量词、边界匹配等），能构建中等复杂度的匹配模式。

必备知识点

字符集与范围（[]）
- 匹配括号内的任意单个字符（如[abc]匹配a、b或c）。
- 范围表示（-）：[0-9]匹配任意数字，[a-zA-Z]匹配任意字母，[^0-9]匹配非数字（^表示取反）。
- 预定义字符集：
  - \d：等价于[0-9]（数字）。
  - \D：等价于[^0-9]（非数字）。
  - \w：等价于[a-zA-Z0-9_]（字母、数字、下划线）。
  - \W：等价于[^a-zA-Z0-9_]（非单词字符）。
  - \s：匹配空白字符（空格、制表符\t、换行符\n等）。
  - \S：匹配非空白字符。
量词（控制匹配次数）
- *：匹配前一个元素0次或多次（如a*匹配''、'a'、'aa'等）。
- +：匹配前一个元素1次或多次（如a+匹配'a'、'aa'等，不匹配''）。
- ?：匹配前一个元素0次或1次（如a?匹配''或'a'）。
- {n}：匹配前一个元素恰好n次（如a{3}匹配'aaa'）。
- {n,}：匹配前一个元素至少n次（如a{2,}匹配'aa'、'aaa'等）。
- {n,m}：匹配前一个元素n到m次（如a{1,3}匹配'a'、'aa'、'aaa'）。
边界匹配
- ^：匹配字符串开头（如^Hello匹配以Hello开头的字符串）。
- $：匹配字符串结尾（如world$匹配以world结尾的字符串）。
- \b：单词边界（匹配单词与非单词字符的交界处，如\bcat\b匹配'cat'但不匹配'category'）。

实践示例：核心语法应用

import re

# 1. 字符集与预定义字符集
text = "User ID: 123; Name: Alice_; Age: 25"

# 匹配所有数字（\d）
numbers = re.findall(r'\d', text)
print("所有数字：", numbers)  # 输出：['1', '2', '3', '2', '5']

# 匹配所有单词字符（\w）
word_chars = re.findall(r'\w', text)
print("前5个单词字符：", word_chars[:5])  # 输出：['U', 's', 'e', 'r', 'I']

# 匹配非空白字符（\S）
non_whitespace = re.findall(r'\S', text)
print("前5个非空白字符：", non_whitespace[:5])  # 输出：['U', 's', 'e', 'r', 'I']

# 自定义字符集：匹配A-Z大写字母或数字
custom_chars = re.findall(r'[A-Z0-9]', text)
print("大写字母或数字：", custom_chars)  # 输出：['U', 'I', 'D', '1', '2', '3', 'N', 'A', '2', '5']


# 2. 量词的使用
text = "aa aaa a aaaa"

# 匹配1个或多个a（a+）
one_or_more_a = re.findall(r'a+', text)
print("1个以上a：", one_or_more_a)  # 输出：['aa', 'aaa', 'a', 'aaaa']

# 匹配2到3个a（a{2,3}）
two_to_three_a = re.findall(r'a{2,3}', text)
print("2-3个a：", two_to_three_a)  # 输出：['aa', 'aaa']

# 匹配0个或1个a（a?）—— 此处用于匹配单词后的可选s（单复数）
fruit_text = "apple apples banana bananas"
fruits = re.findall(r'\b\w+s?\b', fruit_text)  # \b确保单词边界
print("匹配单复数水果：", fruits)  # 输出：['apple', 'apples', 'banana', 'bananas']


# 3. 边界匹配
text = "test testing test123 test_test"

# 匹配以test开头且是完整单词（\b）
whole_test = re.findall(r'\btest\b', text)
print("完整单词test：", whole_test)  # 输出：['test']（不匹配testing、test123等）

# 匹配以数字结尾的字符串（$）
num_ending = re.search(r'\d$', "version 2.1.3")
print("以数字结尾：", num_ending.group() if num_ending else "无")  # 输出：3

# 匹配以Hello开头的字符串（^）
hello_start = re.match(r'^Hello', "Hello, world!")
print("以Hello开头：", hello_start.group() if hello_start else "无")  # 输出：Hello

最佳实践

字符集简化：优先使用预定义字符集（如\d替代[0-9]），提升模式可读性。
量词范围明确化：避免过度使用*和+（可能匹配过多内容），尽量用{n,m}限制范围（如匹配手机号用\d{11}而非\d+）。
边界约束：验证格式（如手机号、邮箱）时，务必添加^和$确保完全匹配（如^1\d{10}$匹配11位手机号，避免12345678901abc被误判）。

三、阶段三：进阶语法（分组、断言与模式修饰符）（2周）

核心目标

掌握分组捕获、反向引用、零宽断言等高级功能，理解模式修饰符（flags）的作用，能处理复杂匹配场景。

必备知识点

分组与捕获（()）
- 分组：将部分模式视为一个整体（如(ab)+匹配'ab'、'abab'等）。
- 捕获：()会保存匹配的子串，可通过Match.group(n)获取（group(0)是整个匹配，group(1)是第一个分组，以此类推）。
- 非捕获分组：(?:pattern)仅分组不捕获（节省内存，无需引用时使用）。
反向引用
- 引用前面分组捕获的内容，格式为\n（n是分组编号）。
- 应用场景：匹配重复字符串（如(\w+)\s+\1匹配重复的单词，如'hello hello'）。
零宽断言（位置匹配）
- 正向先行断言（(?=pattern)）：匹配后面是pattern的位置（如\d+(?=元)匹配“价格：199元”中的199）。
- 负向先行断言（(?!pattern)）：匹配后面不是pattern的位置（如\d+(?!%)匹配“折扣10”中的10，不匹配“10%”）。
- 正向后行断言（(?<=pattern)）：匹配前面是pattern的位置（如(?<=￥)\d+匹配“￥299”中的299）。
- 负向后行断言（(?<!pattern)）：匹配前面不是pattern的位置（如(?<!\$)\d+匹配“300元”中的300，不匹配“$300”）。
模式修饰符（flags）
- re.IGNORECASE（re.I）：忽略大小写（如re.search(r'python', text, re.I)匹配'Python'、'PYTHON'等）。
- re.DOTALL（re.S）：使.匹配换行符（默认不匹配）。
- re.MULTILINE（re.M）：使^和$匹配每行开头/结尾（默认仅匹配整个字符串）。
- re.VERBOSE（re.X）：允许模式中添加注释和空格，提升可读性。

实践示例：进阶语法应用

import re

# 1. 分组与捕获
text = "Name: Alice, Age: 25; Name: Bob, Age: 30"

# 捕获姓名和年龄（两个分组）
pattern = r'Name: (\w+), Age: (\d+)'
matches = re.findall(pattern, text)
print("捕获的姓名和年龄：", matches)  # 输出：[('Alice', '25'), ('Bob', '30')]

# 使用group()获取分组内容
match = re.search(pattern, text)
if match:
    print("完整匹配：", match.group(0))  # 输出：Name: Alice, Age: 25
    print("姓名：", match.group(1))       # 输出：Alice
    print("年龄：", match.group(2))       # 输出：25


# 2. 反向引用（匹配重复内容）
text = "hello hello world world test testtest"

# 匹配连续重复的单词（\1引用第一个分组）
repeat_words = re.findall(r'(\w+)\s+\1', text)
print("连续重复的单词：", repeat_words)  # 输出：['hello', 'world']

# 匹配HTML标签（如<div>...</div>，简单场景）
html = "<div>content</div><span>text</span><div>another</div>"
# 非贪婪匹配+反向引用标签名
html_tags = re.findall(r'<(\w+)>.*?</\1>', html, re.DOTALL)  # re.DOTALL使.匹配换行
print("匹配的标签名：", html_tags)  # 输出：['div', 'span', 'div']


# 3. 零宽断言（位置匹配）
text = "价格：199元，折扣：10%，原价：299元，税额：5"

# 正向先行断言：匹配后面是"元"的数字
price = re.findall(r'\d+(?=元)', text)
print("价格（元）：", price)  # 输出：['199', '299']

# 负向先行断言：匹配后面不是"%"的数字
non_percent = re.findall(r'\d+(?!%)', text)
print("非百分比数字：", non_percent)  # 输出：['199', '299', '5']

# 正向后行断言：匹配前面是"折扣："的数字
discount = re.findall(r'(?<=折扣：)\d+', text)
print("折扣值：", discount)  # 输出：['10']


# 4. 模式修饰符
text = "Python is great. PYTHON is powerful.\npython is easy."

# 忽略大小写（re.I）
case_insensitive = re.findall(r'python', text, re.I)
print("忽略大小写匹配：", case_insensitive)  # 输出：['Python', 'PYTHON', 'python']

# 多行模式（re.M）：匹配每行开头的python（忽略大小写）
multi_line = re.findall(r'^python', text, re.I | re.M)  # 组合修饰符用|
print("多行模式匹配每行开头：", multi_line)  # 输出：['Python', 'python']

# 详细模式（re.X）：添加注释和空格，提升复杂模式可读性
pattern = r"""
    \b          # 单词边界
    (\w+)       # 捕获单词
    \s+         # 空格
    \1          # 反向引用，重复单词
    \b          # 单词边界
"""
verbose_match = re.findall(pattern, text, re.X)
print("详细模式匹配结果：", verbose_match)  # 输出：[]（本例无重复单词，仅演示语法）

注意事项

分组编号规则：分组按左括号(出现的顺序编号（从1开始），嵌套分组也遵循此规则（如((a)b)c中，group(1)是'ab'，group(2)是'a'）。
断言的“零宽”特性：断言只匹配位置，不消耗字符（如a(?=b)匹配'ab'中的'a'，而非'ab'），避免干扰后续匹配。
修饰符组合：多个修饰符用|组合（如re.I | re.M），但需注意兼容性（如re.DOTALL和re.MULTILINE通常可同时使用）。

四、阶段四：实用场景与文本处理技巧（2周）

核心目标

掌握正则表达式在文本提取、替换、验证、清洗等场景的应用技巧，能解决实际开发中的常见问题。

必备知识点

文本提取
- 结构化数据提取：从日志、HTML、配置文件中提取关键信息（如IP地址、日期、URL）。
- 非结构化文本解析：提取邮件正文、文档中的特定字段（如“姓名：XXX”中的姓名）。
文本替换与清洗
- 批量替换：用re.sub()实现复杂替换（如替换所有邮箱为[EMAIL]）。
- 清洗脏数据：去除多余空格、特殊字符，标准化格式（如统一日期为YYYY-MM-DD）。
- 替换回调：re.sub()的repl参数可为函数，实现动态替换（如根据匹配内容生成替换值）。
格式验证
- 常见格式：验证手机号（^1[3-9]\d{9}$）、邮箱（^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$）、URL、身份证号等。
- 核心逻辑：用^和$约束整个字符串，确保完全匹配模式。

实践示例：实用场景应用

import re

# 1. 文本提取：从日志中提取IP和状态码
log_text = """
192.168.1.1 - [2023-10-01 08:30:00] "GET /index.html" 200
10.0.0.5 - [2023-10-01 08:31:15] "POST /login" 401
172.16.0.3 - [2023-10-01 08:32:45] "GET /api/data" 500
"""

# 提取IP地址（简单模式：xxx.xxx.xxx.xxx）
ip_pattern = r'\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b'
ips = re.findall(ip_pattern, log_text)
print("提取的IP地址：", ips)  # 输出：['192.168.1.1', '10.0.0.5', '172.16.0.3']

# 提取时间和状态码（分组捕获）
log_pattern = r'\[(.*?)\].*?" (\d{3})'
log_info = re.findall(log_pattern, log_text)
print("提取的时间和状态码：", log_info)  # 输出：[('2023-10-01 08:30:00', '200'), ...]


# 2. 文本替换与清洗
dirty_text = "  Hello  World!  \nThis is a\ttest.  Contact: user@example.com  "

# 去除多余空格（连续空格→单个空格，首尾空格）
cleaned = re.sub(r'\s+', ' ', dirty_text).strip()
print("清洗后文本：", cleaned)  # 输出：Hello World! This is a test. Contact: user@example.com

# 替换邮箱为[EMAIL]
masked = re.sub(r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+', '[EMAIL]', cleaned)
print("替换邮箱后：", masked)  # 输出：Hello World! This is a test. Contact: [EMAIL]

# 动态替换：将数字乘以2（使用回调函数）
text_with_numbers = "Prices: 10, 20, 30"
def double_numbers(match):
    num = int(match.group())
    return str(num * 2)

doubled = re.sub(r'\d+', double_numbers, text_with_numbers)
print("数字翻倍后：", doubled)  # 输出：Prices: 20, 40, 60


# 3. 格式验证
def validate_pattern(text, pattern, description):
    """验证文本是否完全匹配模式"""
    if re.fullmatch(pattern, text):  # fullmatch等价于^pattern$
        print(f"{description}验证通过：{text}")
    else:
        print(f"{description}验证失败：{text}")

# 验证手机号（中国大陆）
phone_pattern = r'^1[3-9]\d{9}$'
validate_pattern("13812345678", phone_pattern, "手机号")  # 通过
validate_pattern("12345678901", phone_pattern, "手机号")  # 失败（开头不是13-19）

# 验证邮箱（简化版）
email_pattern = r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$'
validate_pattern("user.name+tag@example.co.uk", email_pattern, "邮箱")  # 通过
validate_pattern("invalid-email@.com", email_pattern, "邮箱")  # 失败（域名前有.）

# 验证日期（YYYY-MM-DD）
date_pattern = r'^\d{4}-(0[1-9]|1[0-2])-(0[1-9]|[12]\d|3[01])$'
validate_pattern("2023-10-05", date_pattern, "日期")  # 通过
validate_pattern("2023-13-01", date_pattern, "日期")  # 失败（月份13无效）

最佳实践

提取优先用分组：复杂提取场景（如同时获取多个字段）优先使用分组捕获（()），比多次匹配更高效。
替换用回调函数：需要根据匹配内容动态生成替换值时（如格式化、计算），使用re.sub()的函数参数，避免多次正则调用。
验证用fullmatch：re.fullmatch(pattern, text)等价于re.match(r'^pattern$', text)，专门用于完整格式验证，代码更简洁。

五、阶段五：性能优化与调试（1周）

核心目标

掌握正则表达式的性能优化技巧，学会调试复杂模式，避免常见性能陷阱。

必备知识点

性能优化技巧
- 预编译模式：用re.compile(pattern)将模式编译为RegexObject，多次使用时减少编译开销（尤其是循环中）。
- 避免贪婪匹配陷阱：过度使用.*可能导致回溯爆炸（如匹配'a'*1000 + 'b'用a.*b会产生大量回溯），改用非贪婪匹配（.*?）或精确模式。
- 简化模式：移除不必要的分组（用非捕获分组(?:)），避免嵌套过深，减少引擎计算量。
- 限制匹配范围：用字符集替代通配符（如[0-9]替代\d在特定场景更高效），明确量词范围（如{1,5}替代+）。
调试方法
- 分步测试：将复杂模式拆分为子模式，逐步验证（如先测试\d+，再测试\d+@\w+，最后测试完整邮箱模式）。
- 可视化工具：使用在线正则调试工具（如Regex101）查看匹配过程、回溯路径。
- 利用re.DEBUG：编译模式时添加re.DEBUG参数，打印正则引擎的解析过程（如re.compile(r'a+b', re.DEBUG)）。

实践示例：性能优化与调试

import re
import time

# 1. 预编译模式（提升多次使用的性能）
# 未预编译：每次调用都编译模式
start = time.time()
for _ in range(10000):
    re.findall(r'\b\d{3}-\d{3}-\d{4}\b', "Phone: 123-456-7890")
print("未预编译耗时：", time.time() - start)

# 预编译：一次编译，多次使用
pattern = re.compile(r'\b\d{3}-\d{3}-\d{4}\b')
start = time.time()
for _ in range(10000):
    pattern.findall("Phone: 123-456-7890")
print("预编译耗时：", time.time() - start)  # 耗时显著减少


# 2. 避免贪婪匹配陷阱（回溯爆炸）
# 问题模式：匹配从<a>到</a>的内容，但存在多个</a>时会过度匹配
text = "<a>link1</a> other text <a>link2</a>"
greedy_pattern = r'<a>.*</a>'  # 贪婪匹配，会匹配整个字符串
print("贪婪匹配结果：", re.findall(greedy_pattern, text))  # 输出：['<a>link1</a> other text <a>link2</a>']

# 优化：非贪婪匹配（.*?）
non_greedy_pattern = r'<a>.*?</a>'
print("非贪婪匹配结果：", re.findall(non_greedy_pattern, text))  # 输出：['<a>link1</a>', '<a>link2</a>']

# 更优：用否定字符集（效率更高，无回溯）
optimal_pattern = r'<a>[^<]*</a>'  # [^<]*匹配非<的字符，避免回溯
print("否定字符集匹配结果：", re.findall(optimal_pattern, text))  # 输出同上，效率更高


# 3. 调试模式（查看正则解析过程）
# 编译时添加re.DEBUG，打印引擎解析步骤（适合复杂模式调试）
try:
    re.compile(r'(\w+)\s+\1', re.DEBUG)
except Exception as e:
    print("调试信息：", e)  # 实际运行会输出解析过程，如"MAX_REPEAT 1 4294967295"等

注意事项

预编译适用场景：模式被多次使用（如循环、函数多次调用）时预编译才有明显收益，单次使用无需预编译。
非贪婪并非万能：.*?仍可能产生回溯，在已知匹配范围的场景（如匹配HTML标签内的内容），优先用否定字符集（[^<]*）替代。
警惕灾难性回溯：当模式中包含多个嵌套的量词（如(a*)*b），且文本不匹配时，可能导致指数级回溯，卡死程序（可通过限制量词范围避免）。

六、阶段六：项目实战（3周）

核心目标

综合运用正则表达式解决实际项目需求（如日志分析、数据清洗、爬虫解析），结合Python其他库构建完整解决方案。

必备知识点

典型项目场景
- 日志分析系统：提取IP、时间、状态码等信息，统计访问量、错误率。
- 数据清洗工具：标准化格式（如日期、手机号），去除噪声数据。
- 爬虫数据解析：从HTML/JSON中提取关键信息（如商品价格、文章标题）。
- 配置文件解析：从自定义配置文件中提取键值对（如key = value）。
项目开发流程
- 需求分析→模式设计→测试用例编写→代码实现→性能优化→部署。

实践示例：日志分析项目

import re
import pandas as pd
from collections import defaultdict

class LogAnalyzer:
    def __init__(self, log_pattern=None):
        # 预编译日志匹配模式（IP、时间、请求方法、URL、状态码）
        self.pattern = re.compile(
            r'(?P<ip>\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})'  # 命名分组，便于通过名称访问
            r' - \[(?P<time>.*?)\]'
            r' "(?P<method>\w+)\s+(?P<url>.*?)\s+.*?"'
            r' (?P<status>\d{3})'
        )
    
    def parse_logs(self, log_file):
        """解析日志文件，返回结构化数据"""
        logs = []
        with open(log_file, 'r', encoding='utf-8') as f:
            for line in f:
                match = self.pattern.search(line)
                if match:
                    # 将匹配的分组转换为字典（使用命名分组的优势）
                    log_data = match.groupdict()
                    logs.append(log_data)
        return pd.DataFrame(logs)  # 转为DataFrame便于分析
    
    def analyze_errors(self, df):
        """分析错误状态码（4xx、5xx）的分布"""
        error_df = df[df['status'].str.startswith(('4', '5'))]
        error_counts = error_df['status'].value_counts()
        ip_errors = error_df['ip'].value_counts().head(5)  # 错误最多的前5个IP
        return {
            'error_counts': error_counts,
            'top_error_ips': ip_errors
        }

# 项目运行
if __name__ == "__main__":
    # 1. 初始化分析器
    analyzer = LogAnalyzer()
    
    # 2. 解析日志文件（假设存在access.log）
    log_df = analyzer.parse_logs('access.log')
    print("解析的日志数据（前5行）：")
    print(log_df.head())
    
    # 3. 分析错误状态码
    errors = analyzer.analyze_errors(log_df)
    print("\n错误状态码分布：")
    print(errors['error_counts'])
    print("\n错误最多的前5个IP：")
    print(errors['top_error_ips'])
    
    # 4. 保存分析结果
    log_df.to_csv('parsed_logs.csv', index=False)
    errors['error_counts'].to_csv('error_counts.csv')

项目说明

命名分组：使用(?P<name>pattern)定义命名分组，通过groupdict()获取键值对字典，提升代码可读性。
结合Pandas：将解析后的日志转为DataFrame，利用其强大的统计功能（如value_counts()）简化分析。
可扩展性：通过类封装解析和分析逻辑，便于后续添加新功能（如流量趋势分析、URL访问排名）。

七、总结：从零基础到正则表达式项目开发的核心路径

正则表达式的学习是一个“语法→技巧→实战”的渐进过程，核心路径可概括为：

基础入门：理解正则表达式的概念，掌握Python re模块的核心函数（match、search、findall、sub），能进行简单匹配。
核心语法：熟练元字符（字符集、量词、边界），构建中等复杂度的模式，解决基本的文本匹配问题。
进阶功能：掌握分组捕获、反向引用、零宽断言和模式修饰符，处理复杂场景（如重复内容匹配、位置敏感提取）。
实用技巧：应用正则进行文本提取、替换、清洗和格式验证，解决开发中的常见问题（如日志解析、数据标准化）。
性能优化：通过预编译、模式简化等技巧提升性能，学会调试复杂模式，避免回溯陷阱。
项目实战：综合运用所学开发完整项目（如日志分析系统），结合其他库（如Pandas）构建解决方案。