python中如何使用正则表达式提取数据

本文详细介绍了Python中使用正则表达式进行数据提取的方法,包括re.compile函数、字符匹配、字符串切割和替换等实例。通过实例解析了正则表达式的应用,如使用分组、方括号匹配字符等,以及split和sub方法在复杂场景下的使用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这篇文章主要介绍了python中如何使用正则表达式提取数据问题。具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教。

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。

re 模块使 Python 语言拥有全部的正则表达式功能。

compile 函数可创建一个模式字符串和可选的标志参数组成的一个正则表达式对象。该对象拥有一系列方法用于正则表达式匹配和替换。

re 模块也提供了与这些方法功能完全一致的函数,这些函数使用一个模式字符串做为它们的第一个参数。

模式 描述
^ 匹配字符串的开头
$ 匹配字符串的末尾。
. 匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换行符的任意字符。
[...] 用来表示一组字符,单独列出:[amk] 匹配 'a','m'或'k'
[^...] 不在[]中的字符:[^abc] 匹配除了a,b,c之外的字符。
re* *匹配0次或多次。贪婪方式,re代表正则表达式
re+ +匹配1次或多次。
re? ?匹配0次或1次,非贪婪方式,匹配0次指表达式后面为空的也匹配
re{ n} 连续匹配 n 个前面表达式。例如, o{2},连续匹配两次o, 不能匹配 "Bob" 中的 "o",但是能匹配 "food" 中的两个 o。
re{ n,} 匹配 n 个前面表达式。例如, o{2,} 不能匹配"Bob"中的"o",但能匹配 "foooood"中的所有 o。"o{1,}" 等价于 "o+"。"o{0,}" 则等价于 "o*"。
re{ n, m} 表示匹配 连续的 前面的表达式 至少n次,至多 m 次。表达式 油{3,4} 就表示匹配 连续的 油 字 至少3次,至多 4 次
a| b 匹配a或b
(re) 对正则表达式分组并记住匹配的文本

常用正则表达式实例

字符匹配

实例 描述
python 匹配 "python".

字符类

实例 描述
[Pp]ython 匹配 "Python" 或 "python"
rub[ye] 匹配 "ruby" 或 "rube"
[aeiou] 匹配中括号内的任意一个字母
[0-9] 匹配任何数字。类似于 [0123456789]
[a-z] 匹配任何小写字母
[A-Z] 匹配任何大写字母
[a-zA-Z0-9] 匹配任何字母及数字
[^aeiou] 除了aeiou字母以外的所有字符
[^0-9] 匹配除了数字外的字符

特殊字符类

实例 描述
. 匹配除 "\n" 之外的任何单个字符。要匹配包括 '\n' 在内的任何字符,请使用象 '[.\n]' 的模式。
\d 匹配一个数字字符。等价于 [0-9]。
\D 匹配一个非数字字符。等价于 [^0-9]。
\s 匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S 匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\w 匹配包括下划线的任何单词字符。等价于'[A-Za-z0-9_]'。
\W 匹配任何非单词字符。等价于 '[^A-Za-z0-9_]'。

re.match只匹配字符串的开始,如果字符串开始不符合正则表达式,则匹配失败,函数返回None;而re.search匹配整个字符串,直到找到第一个匹配。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

# re.match()函数只能从起始的位置匹配,否则返回None

import re

  

matchObj = re.match('www', 'www.runoob.com')

print(re.match('www', 'www.runoob.com').span())  # 在起始位置匹配

print(re.match('com', 'www.runoob.com'))  # 不在起始位置匹配

# (0, 3)

# None

  

# 使用group(num) 或 groups() 函数来获取用来匹配的正在表达式提取的值。

if matchObj:

    print("matchObj.group() : ", matchObj.group())

    # 执行结果是matchObj.group() :  www

    # matchObj.group() 等同于 matchObj.group(0),表示匹配到的完整文本字符

    # print ("matchObj.group(1) : ", matchObj.group(1))

    # print ("matchObj.group(2) : ", matchObj.group(2))

  

# re.search 扫描整个字符串并返回第一个成功的匹配。

import re

  

line = "Cats are smarter than dogs";

  

searchObj = re.search(r'(.*) are (.*?) ', line, re.M | re.I)

  

if searchObj:

    print("searchObj.group() : ", searchObj.group())

    print("searchObj.group(1) : ", searchObj.group(1))

    print("searchObj.group(2) : ", searchObj.group(2))

# 执行结果

# searchObj.group() :  Cats are smarter

# searchObj.group(1) :  Cats

# searchObj.group(2) :  smarter

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值