利用Python正则表达式匹配email地址

本文介绍如何使用Python的正则表达式验证电子邮件地址的有效性。文章详细解释了正则表达式的构成元素及其在电子邮件地址验证中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

正则表达式给予了Python在字符串匹配的过程中极大的方便。
正则顾名思义就是制定一个规则,至于是谁来遵守,Python中无疑是字符串。当我们在制定完一个字符串的表达形式后,所有符合此规则的字符串都可以依据此规则进行匹配,不需要再通过复杂的代码对字符串进行拆分判断。
此次可以来看下Python匹配常见email地址,比如: burn_ashes@123.com , 65633ttmn@gmail.com , zheng.agv@csdn.com.cn 等。
对于这样的常见email格式,不同的公司可能命名规则不一样。但是在实际使用时怎么判断这些email是否合法。 可能你在注册某个网站时还需要你填写自己的用户名,如果填写不规范,后台往往会提醒昵称不合法,并且会在一侧提示合法的表达形式是什么。
那么做到这是很复杂吗? 告诉你,不复杂。正则表达式就可以解决这个问题。
首先,Python中是有一套字符表示方法的。
用’\d’可以匹配一个数字,’\w’可以匹配一个字母或数字,’.’可以匹配任意一个字符,\s可以匹配一个空格;
[ ]可以用来表示一定的范围匹配方式。其中,用*表示任意个字符(包括0个),用+表示至少一个字符,用?表示0个或1个字符,用{n}表示n个字符,用{n,m}表示n-m个字符。
举例看下:
‘\w\d’ :表示可以匹配全数字或者字符加数字,如’03’,’a4’,’A4’等,但是无法匹配’aa’;
‘Bu.’ :可以匹配Bu后面跟任意字符;
[\w]+ :表示至少一个字符或数字;
\w{2,3} :表示2个或者3个字符或者数字。

进入正题,来看如何实现对上述常见email格式进行正则。
email表达式开头可以是数字或者字符,可以想到用\w来表示,email地址也是可以容忍’.’的,但是限定最多只能出现一个,且不能在地址首尾出现。也就是说地址的最后一位必须是字母或者数字,所以在’.’后可以再次用\w来表示。接下来就是email地址中的@符号,这个符号是必须且不可更改的,需要用转义字符’\’来表示,\@。剩余的就是常见的.com ,.com.cn ,.it 等 同样’.’也需要用转义字符来表示,在转义字符后可以用\w{2,3}来匹配常见的格式,剩余的可有可无的.cn .it 等类似形式的怎么处理呢,需要用到(A|B])这样的形式来匹配,表示A或者B,可以用(\w{2}|)表示。组合起来就可以得到最终的正则表达式了。
附代码和验证:

import re
def is_valid_email(addr):
    if re.match(r'^([\w]+\.*)([\w]+)\@[\w]+\.\w{3}(\.\w{2}|)$', addr):
        return True
assert is_valid_email('nobodyin@gmail.com.cn')
assert is_valid_email('bill.maria@yahoo.com')
assert not is_valid_email('uncle.sam@mifty.com..org')
assert is_valid_email('united.china@163.com.it')
assert not is_valid_email('doggy#sample.com')
assert not is_valid_email('y_cat-st@example.com')
print('ok')
### Python 正则表达式匹配使用教程 #### 导入 re 模块 要在 Python 中使用正则表达式,需先导入 `re` 模块。此模块提供了多种用于处理正则表达式的函数。 ```python import re ``` #### 基本语法介绍 正则表达式是一种强大的工具,允许定义复杂的字符串模式来搜索、编辑或操作文本。基本元字符包括但不限于: - `.` 匹配除换行符以外的任意单个字符[^1]。 - `*` 匹配方括号内的前一项零次或多次[^2]。 - `+` 匹配方括号内的前一项一次或多次[^2]。 - `{n}` 表示精确重复 n 次;而 `{m,n}` 则表示至少 m 次至多 n 次。 - `\b` 定义单词边界,确保所选模式位于词语开头或结尾处而不被其他字母包围[^3]。 #### 函数说明 以下是几个常用的 `re` 模块中的函数及其用途: - **match(pattern, string)** 尝试从起始位置完全匹配给定模式。如果成功,则返回 Match 对象;否则返回 None。 ```python result = re.match(r'\d+', '123abc') print(result.group()) # 输出 "123" ``` - **search(pattern, string)** 扫描整个字符串并返回第一个成功的匹配项。如果没有找到任何匹配的结果会返回None。 ```python result = re.search(r'[A-Z]', 'hello World!') print(result.group()) # 输出 "W" ``` - **findall(pattern, string)** 查找所有不重叠的发生实例,并作为列表返回它们。 ```python results = re.findall(r'ab+c', 'ac abc abbc abbdc') print(results) # 输出 ['abc', 'abbc'] ``` - **sub(pattern, repl, string[, count])** 替换指定数量的最大非重叠发生次数,默认全部替换。 ```python new_text = re.sub(r's\w*', '', 'This is a test sentence.') print(new_text.strip()) # 输出 "T i ." ``` #### 实际案例分析 假设有一个包含电子邮件地址的日志文件,现在想要提取其中所有的邮箱账号部分(即 @ 符号之前的内容)。可以构建如下正则表达式来进行筛选: ```python emails = """ john.doe@example.com jane.smith@company.org """ email_accounts = re.findall(r'(\S+)@", emails) print(email_accounts) # 输出 ["john.doe", "jane.smith"] ``` 这里 \S+ 表示连续的一串非空白字符,紧跟其后的 @ 号用来定位邮件地址的位置。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值