Python正则表达式

最新推荐文章于 2024-11-13 23:26:55 发布

转载最新推荐文章于 2024-11-13 23:26:55 发布 · 177 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://blog.youkuaiyun.com/qq_34500270/article/details/82899057

python 专栏收录该内容

12 篇文章

订阅专栏

1. re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

import re
 
line="this hdr-biz 123 model server 456"
pattern=r"123"
matchObj = re.match( pattern, line)

2. re.search 扫描整个字符串并返回第一个成功的匹配。

import re
 
line="this hdr-biz model server"
pattern=r"hdr-biz"
m = re.search(pattern, line)

3. Python 的re模块提供了re.sub用于替换字符串中的匹配项。

import re
 
line="this hdr-biz model args= server"
patt=r'args='
name = re.sub(patt, "", line)

4. compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，供 match() 和 search() 这两个函数使用。

import re
 
pattern = re.compile(r'\d+')

5. re.findall 在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果没有找到匹配的，则返回空列表。

import re
 
line="this hdr-biz model args= server"
patt=r'server'
pattern = re.compile(patt)
result = pattern.findall(line)

6. re.finditer 和 findall 类似，在字符串中找到正则表达式所匹配的所有子串，并把它们作为一个迭代器返回。

import re
 
it = re.finditer(r"\d+","12a32bc43jf3")
for match in it:
  print (match.group() )

7.正则表达式模式语法中的特殊元素

实例	描述
[Pp]ython	匹配 “Python” 或 “python”
rub[ye]	匹配 “ruby” 或 “rube”
[aeiou]	匹配中括号内的任意一个字母
[0-9]	匹配任何数字。类似于 [0123456789]
[a-z]	匹配任何小写字母
[A-Z]	匹配任何大写字母
[a-zA-Z0-9]	匹配任何字母及数字
[^aeiou]	除了aeiou字母以外的所有字符
[^0-9]	匹配除了数字外的字符

#用空格分割
 re.split(r'\s+', 'a b   c')
返回：['a', 'b', 'c', 'd']

#用逗号分隔
re.split(r'[\s\,]+', 'a,b, c  d')
返回：['a', 'b', 'c', 'd']

正则表达式

函数	说明
sub(pattern,repl,string)	把字符串中的所有匹配表达式pattern中的地方替换成repl
[^**]	表示不匹配此字符集中的任何一个字符
\u4e00-\u9fa5	汉字的unicode范围
\u0030-\u0039	数字的unicode范围
\u0041-\u005a	大写字母unicode范围
\u0061-\u007a	小写字母unicode范围

sub() 将匹配项替换为指定文本:
示例

import re

str = "The rain in Spain"
x = re.sub("\s", "9", str)
print(x)

替换前两项:
示例

import re

str = "The rain in Spain"
x = re.sub("\s", "9", str, 2)
print(x)

#过滤掉除了中文以外的字符
#coding=utf-8
import re

with open('aaa.txt','r',encoding="utf-8") as f:
    #data = f.read().decode('gbk').encode('utf-8')
    data = f.read()
    print(data)
    data = re.sub('[\u4E00-\u9FA5]',"", data)
    print(data)

# -*- coding: utf-8 -*-
import re
#提取字符串中的中文
str = "hello,world!!%[545]你好234世界。。。"
str = re.sub("[A-Za-z0-9\!\%\[\]\,\。]", "", str)
print(str)
 
#提取字符串里的中文，返回数组
pattern="[\u4e00-\u9fa5]+" 
regex = re.compile(pattern)
results =  regex.findall("adf中文adf发京东方")
print(results)