小话Python笔记——正则表达式

本文介绍了正则表达式的常用语法及Python中的应用方法,并通过一个实际案例演示如何使用正则表达式进行日期匹配。

正则表达式是Python学习的一种基本匹配方法。先来一个题预预热:

如果要用正则表达式匹配“一张表情包出生于2018年3月28日”的出生年月日,该怎么做?

可以写出匹配方法来(\d{4}年\d{1,2}月\d{1,2}日)

怎么写出来的呢?先来了解一下基础知识:

1、常见的一些基础知识:

    . 任意字符,换行符除外


    \b 匹配单词的开始或者结束(e.g.:匹配say,可以用\bs\w*\b,单词的开始结束加上了\b)

    \d 匹配数字

    \w 匹配字母、数字、下划线或者汉字

    \s 匹配任何空白符号

    

    \B 匹配不是单词的开始或者结束(与上面\b相反)

    \D 匹配不是数字的字符(与上面\d相反)

    \W 匹配不是字母、数字、下划线或者汉字的字符(与上面\w相反)

    \S 匹配任何非空白符号(与上面\s相反)



    ^ 匹配字符串的开始(前面加^)

    $ 匹配字符串的结束 (后面加$)


    * 重复0次或者多次(e.g.:\d*的意思就是数字不出现或者出现多少次都可以)

    + 重复1次或者多次

    ? 重复1次或者0次

    {n} 重复了n次

    {n,} 重复了n次或者更多的次数

    {n,m} 重复了n次到m次


    当要匹配的的字符中含有正则表达式本来就有的特殊符号时,我们可以用“\”来取消。(e.g.:匹配“.”时,用\.)

    当要匹配一个集合时,可以使用[]。(e.g.:[abcdef]意思就是匹配abcdef中的任意一个字符)

    当匹配时需要好几种匹配规则,这时候|就用上了。(e.g.:\d{4}|\s{1}匹配4个数字或者一个空白符)

    正则表达式中,我们可以用()来进行分组,把想要一起操作或者提取的字符放在()中。


    [^a] 匹配除了a之外的字符

    [^abc] 匹配除了a、b、c之外的字符

    [^(123|abc)] 匹配除了1、2、3或者a、b、c以外的字符


    (?<name>exp) 匹配exp,然后将捕获的文本给name的组里,也可以写成(?'name'exp)

    (?:exp) 匹配exp,不捕获文本,也不分配组好(e.g.:有时候只是用()来限制范围,不需要捕获其中内容)

    (?=exp) 匹配exp前面的位置

    (?<=exp) 匹配exp后面的位置

    (?!exp) 匹配后面跟的不是exp的位置

    (?<!exp) 匹配前面不是exp的位置

    (?#comment) 注释(e.g.:(?#这是注释))

    

    正则表达式匹配时是贪婪模式,也就是从后向前进行匹配。当我们用b.*b来匹配baaaaaaaaaaabb时,匹配出来的字符为bb。当我们需要的字符是baaaaaaaaaaabb时就需要非贪婪的匹配模式,这时我们只需要加一个?,匹配式就为?(b.*b)。但如果我们需要的是baaaaaaaaaaab时,只需要把最后最后一个b变成非贪婪模式,即为?(b.*?b)。

    

    以上是正则表达式的语法应用,在Python中支持绝大部分,但是也有自己独特的一些匹配方法。

    \A 仅匹配字符串开头

    \Z 仅匹配字符串结尾

     (?P<name>) 分组,除了原有的编号外,再外指定一个别名。(?P=name) 引用别名匹配的字符串。(e.g.:(?P<id>\d)(?P=id),此处后面id引用前面id的group)

    

    Python中有re模块来支持正则表达式,分别介绍:

    s=re.compile(r'\d'):将一个正则表达式转化成s匹配对象,用来接下来的匹配 。

    re.match():输入参数string,用上面s来进行匹配。匹配成功返回结果,失败返回None。(e.g.:re.match(s,'123'),其实可以用正则表达式直接代替s)

    re.search():search方法与match方法相似,区别在于match()只从string开始位置匹配,search()会扫描整个string查找匹配。

    re.split():是将匹配的子串将返回的string切割成列表返回。

    re.findall():搜索整个string,以列表形式返回匹配成功的全部子串。

    re.finditer():搜索整个string,以迭代的方式返回匹配成功的全部Match对象。

    re.sub(pattern,repl,string):是用repl替换string中每一个匹配的子串后,返回替换后的字符串。还可以用re.subn()来返回re.sub()替换次数。


此刻再看刚刚出的题,就有很多可能性了,匹配“一张表情包出生于2018年3月28日”可能出现各种各样的情况。比如出现“年月日”分别用-和\代替,写成2018-3-28或者2019\3\28。有的人可能只写到月份,没有日。结合Python,我们可以如下写:

import re

line = "一张表情包出生于2018年3月28日"

linezz = ".*出生于(\d{4}[年/-]\d{1,2}([月/-]\d{1,2}[日]|[月/-]\d{1,2}|[月]|$))"

pa = re.match(linezz, line)

if pa:
   print(pa.group(1))

### Python 正则表达式学习资源 虽然无法直接提供具体的PPT下载链接,但可以推荐一些获取高质量Python正则表达式教学材料的方法以及相关内容概述。 #### 获取Python正则表达式PPT课件的方式 1. **学术网站和教育平台** 可以访问像Coursera、edX或Udemy这样的在线课程平台,在其免费公开资源部分可能找到与Python正则表达式相关的幻灯片文件[^1]。这些平台上通常会有教师分享的教学资料。 2. **GitHub仓库** GitHub是一个开源项目托管平台,许多开发者会上传自己的学习笔记或者教程文档,其中包括PPT形式的内容。通过搜索关键词`Python regex ppt`可能会发现合适的资源[^2]。 3. **大学官网** 部分高校会在官方网站上发布计算机科学相关课程的讲义,其中就包含了Python编程及其扩展主题——正则表达式的讲解。例如MIT OpenCourseWare提供了丰富的技术类课程资料供公众查阅[^3]。 4. **专业书籍附带光盘/电子版** 如果拥有某些权威出版物(如《Automate the Boring Stuff with Python》),它们往往配有额外的学习工具包,里面或许就有结构化的演示文稿可供参考[^4]。 以下是有关Python正则表达式的一些基础知识点: #### 基础概念介绍 - `re`模块是Python用于处理正则表达式的标准库之一。它允许用户创建模式对象来匹配字符串中的特定子串[^5]。 ```python import re pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b' # Email pattern example compiled_pattern = re.compile(pattern) result = compiled_pattern.match('example@example.com') print(result.group() if result else 'No match found.') ``` - 特殊字符`.`表示任意单个字符;星号`*`意味着前面的元素可重复零次或多此;加号`+`代表至少一次以上出现等等[^6]。 #### 进阶技巧展示 - 使用括号捕获组功能提取感兴趣的部分数据片段[^7]: ```python text = "John Doe's phone number is (123) 456-7890" phone_regex = re.search(r"\((\d{3})\) (\d{3}-\d{4})", text) area_code, local_number = phone_regex.groups() print(f"Area Code: {area_code}, Local Number: {local_number}") ``` - 替换操作可以通过`sub()`方法实现复杂文本转换逻辑[^8]: ```python sample_text = "The price of apples was $2 per kg last week." cleaned_text = re.sub(r"\$\d+", "", sample_text).strip() print(cleaned_text) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值