NLTK与深度学习的自然语言处理实战:正则表达式与Python文本处理基础

最新推荐文章于 2025-12-10 23:02:58 发布

原创最新推荐文章于 2025-12-10 23:02:58 发布 · 301 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#自然语言处理 #正则表达式 #python #NLTK

正则表达式：文本处理的利器

学习目标

通过本课程的学习，学员将掌握正则表达式的基本概念，了解其在文本处理中的应用，并能够使用Python中的re模块进行模式匹配和文本替换。

学习内容

1 正则表达式

1.1 正则表达式基础

正则表达式（Regular Expression，简称regex或regexp）是一种用于匹配字符串中字符组合的模式。它广泛应用于文本处理、数据验证、搜索和替换等场景。正则表达式可以非常灵活地定义搜索模式，从简单的字符匹配到复杂的模式匹配，几乎无所不能。

1.1.1 基本元字符

正则表达式中使用了一些特殊的字符，称为元字符，它们具有特殊的含义。例如：

.：匹配除换行符以外的任何单个字符。
*：匹配前面的子表达式零次或多次。
+：匹配前面的子表达式一次或多次。
?：匹配前面的子表达式零次或一次。
[]：定义一个字符类，匹配其中的任何一个字符。
^：匹配字符串的开始。
$：匹配字符串的结束。

1.1.2 量词

量词用于指定前面的字符或子表达式出现的次数。常见的量词包括：

{n}：恰好匹配n次。
{n,}：至少匹配n次。
{n,m}：至少匹配n次，最多匹配m次。

1.1.3 分组

分组用于将多个字符组合成一个单元，可以用于捕获匹配的子字符串。分组使用圆括号()表示。例如：

import re

text = "Hello, my name is John Doe. I live in New York."
pattern = r"(John) (Doe)"

match = re.search(pattern, text)
if match:
    print("Full name:", match.group(0))  # 输出: Full name: John Doe
    print("First name:", match.group(1))  # 输出: First name: John
    print("Last name:", match.group(2))  # 输出: Last name: Doe

1.2 Python中的正则表达式

Python 提供了 re 模块来支持正则表达式的使用。re 模块包含了许多函数，用于执行正则表达式的匹配、搜索、替换等操作。

1.2.1 常用函数

re.match(pattern, string): 从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，返回None。
re.search(pattern, string): 扫描整个字符串并返回第一个成功的匹配。
re.findall(pattern, string): 搜索字符串，以列表形式返回全部能匹配的子串。
re.sub(pattern, repl, string): 替换字符串中每一个匹配的子串，返回替换后的字符串。

1.2.2 示例：匹配电子邮件地址

假设需要从一段文本中提取所有的电子邮件地址，可以使用以下代码：

import re

text = "Contact us at support@example.com or sales@example.org for more information."

# 修改后的匹配电子邮件地址的正则表达式
pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[a-zA-Z]{2,}\b'

# 使用 re.findall 查找所有匹配的电子邮件地址
emails = re.findall(pattern, text)

print("Found emails:", emails)  # 应输出: Found emails: ['support@example.com', 'sales@example.org']

1.3 模式匹配与文本替换

正则表达式不仅用于匹配文本，还可以用于文本的替换和修改。re.sub 函数是实现这一功能的主要工具。

1.3.1 替换文本

假设有一个文本文件，其中包含一些敏感信息，如电话号码，需要将这些电话号码替换为“[REDACTED]”。可以使用以下代码：

import re

text = "Please call us at 123-456-7890 for more information."

# 定义匹配电话号码的正则表达式
pattern = r'\d{3}-\d{3}-\d{4}'

# 使用 re.sub 替换电话号码
redacted_text = re.sub(pattern, '[REDACTED]', text)

print("Redacted text:", redacted_text)  # 输出: Redacted text: Please call us at [REDACTED] for more information.

1.3.2 分组替换

分组不仅可以用于捕获匹配的子字符串，还可以在替换时使用。例如，假设有一个文本文件，其中包含一些日期格式为“MM/DD/YYYY”的字符串，需要将这些日期格式转换为“YYYY-MM-DD”。可以使用以下代码：

import re

text = "The event is scheduled for 10/15/2023."

# 定义匹配日期的正则表达式，并使用分组
pattern = r'(\d{1,2})/(\d{1,2})/(\d{4})'

# 使用 re.sub 替换日期格式
formatted_text = re.sub(pattern, r'\3-\1-\2', text)

print("Formatted text:", formatted_text)  # 输出: Formatted text: The event is scheduled for 2023-10-15.