一、正则表达式
1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
2.正则表达式的语法规则mport re # 将正则表达式编译成Pattern对象,注意hello前面的r的意思是“原生字符串” pattern = re.compile(r'a.c') # 使用re.match匹配文本,获得匹配结果,无法匹配时将返回None result1 = re.match(pattern,'abc') if result1: print(result1.group()) else: print('匹配失败')
3.正则表达式相关注解(1)数量词的贪婪模式与非贪婪模式正则表达式通常用于在文本中查找匹配的字符串。Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符;非贪婪的则相反,总是尝试匹配尽可能少的字符。例如:正则表达式”ab“如果用于查找”abbbc”,将找到”abbb”。而如果使用非贪婪的数量词”ab?”,将找到”a”。注:我们一般使用非贪婪模式来提取。(2)反斜杠问题与大多数编程语言相同,正则表达式里使用”\“作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符”\“,那么使用编程语言表示的正则表达式里将需要4个反斜杠”\\\\“:前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用r”\\“表示。同样,匹配一个数字的”\\d”可以写成r”\d”。有了原生字符串,妈妈也不用担心是不是漏写了反斜杠,写出来的表达式也更直观勒。4.PythonRe模块#返回pattern对象re.compile(string[,flag])#以下为匹配所用函数re.match(pattern,string[,flags])re.search(pattern,string[,flags])re.split(pattern,string[,maxsplit])re.finda

本文详细介绍了Python正则表达式的使用,包括正则表达式的概念、语法规则、相关注解,以及Python的re模块中的match、search、split等函数的应用。同时,文章探讨了Cookie在Python爬虫中的作用,解释了为什么需要使用Cookie,并展示了如何使用cookielib模块创建CookieJar对象来处理和存储Cookie,实现模拟登录功能。
最低0.47元/天 解锁文章
2408

被折叠的 条评论
为什么被折叠?



